【实验记录】8月25日

2022-08-29 14:32:06 阅读：144 来源： 互联网

标签：sort 25 记录 histone bed 实验 xxzhang human data

ls /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/ |grep 'Fetal' |xargs -I {} mv /home/xxzhang/data/Epigenome/cist ome/human_histone_mark/named_sort/{} ./

这里的话，就是批量的把fetal的样本拿了出来。如下图所示。

ls ./ |grep "H3K4me3_" |xargs -i -t sh -c "giggle search -i  human_rp_index/ -q {} -s >./H3K4me3/{}.result"
#这里学到了如果xargs和重定向（>）联用的时候，不加引号就会报错。

这样的话，我想批量的整合这个数据。得到一个matrix。

setwd("/home/xxzhang/data/Epigenome/cistrome/human_histone_mark/Hs_repeat/H3K4me1/")
filelist <- list.files("./")
n <-length(filelist)
files <- paste("./",filelist,sep="")
test<- read.delim(file=files[1],header=T,sep="") 
dim(test)
test1<-test[,c(1,8)]
dataset_filiter<-as.character(test1$combo_score)
for (i in 2:n)
{
  txt_data<-read.delim(file=files[i],header=T,sep="") 
  txt_data<-txt_data[,c(1,8)]
  dataset_filiter <- cbind(dataset_filiter,txt_data[,2])  
}
filelist_v1 <- as.matrix(gsub("H3K4me1_","", filelist))
filelist_v2 <- as.matrix(gsub(".bed.gz.result","", filelist_v1))
colnames(dataset_filiter)<-filelist_v2
filelist_v3 <- as.matrix(gsub("sort/Hs_","",test1$X.file ))
filelist_v4 <- as.matrix(gsub(".bed.gz","",filelist_v3))
rownames(dataset_filiter)<-filelist_v4
write.csv(dataset_filiter,"H3K4me1.csv",quote=F,col.names=T,row.names=T)

然后就得到了一个matrix，接着对该matrix进行修改。

想对该matrix进行画图。

setwd("F://cistrome")
data<-read.csv("H3K4me1.csv",row.names = 1)
library(pheatmap)
df = data[apply(data, 1, function(x) sd(x)!=0),]
df2 = df[,apply(df, 2, function(x) sd(x)!=0)] 
p<-pheatmap(df2,color = colorRampPalette(c("navy", "white", "firebrick3"))(50),
            show_rownames = T,show_colnames = T)

现在就相当于是把H3K4me1的这个peak做了一下，接下来可以把其他的也都可以弄一下。
然后再把图整理一下，综合的来比较分析。
上面的代码类似，只需要改写一下即可。

我感觉还是不行。
从绝对的值上来看，明显是SVA-D等家族在各种histrone peak上富集程度，我们现在的结果该出来了。因为想要的数据都有了，可以研究的东西也有了。应该可以把全部的结果整理出来了。

现在的想法就是说，我把所有的相关的样本收集整理出来，然后先看一下整体的规律。
比如哪一种类型的peak，什么样本在什么家族中富集？然后我们想对比的找出来，可能对fetal brain的发育有重要作用的转座子家族。
接着从多个维度的数据上去试图详实的论证这个结论。==>我希望这周能够完成这一部分的内容。
现在没有别的事情了，你要认真的完成你自己该做的事情了，我希望在做的过程中就可以得到快乐。

1、挑选候选数据样本。

2、对这些样本进行富集。

3、对富集结果绘制成热图。

4、从中挑选出我们认为比较感兴趣的peak。

5、对这些家族的基因进行功能和细胞类型的富集。

6、结合已有的Encode上的数据和一些文件的工具对部分位点进行可视化。

7.其他方面的可能的详实的证明。


(base) [xxzhang@mu02 Hs_repeat]$ ls /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/ |grep 'H3K36me3_None_Astrocyte' \
> |xargs -i -t sh -c "giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/{} -v -o >./{}.resul

sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_Brain.0.bed.ocyte_Brain.0.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.0.bed.gcyte_None.0.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.10.bed.ocyte_None.10.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.11.bed.ocyte_None.11.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.1.bed.gcyte_None.1.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.2.bed.gcyte_None.2.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.3.bed.gcyte_None.3.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.4.bed.gcyte_None.4.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.5.bed.gcyte_None.5.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.6.bed.gcyte_None.6.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.7.bed.gcyte_None.7.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.8.bed.gcyte_None.8.bed.gz.result
sh -c giggle search -i  human_rp_index/ -q /home/xxzhang/data/Epigenome/cistrome/human_histone_mark/named_sort/H3K36me3_None_Astrocyte_None.9.bed.gcyte_None.9.bed.gz.result

糟糕，我好像在拆分家族的时候，出了问题，导致最后的拆分的结果的不准确。

##chr1  40277202        40278392        peak499 26      .       4.19340 5.54654 2.64596
chr1    40278339        40278586        AluY    Alu     SINE    sort/Hs_Alu.bed.gz  #显然是在匹配的时候，把AluY和Alu混为一谈了。这可怎么办？重新做吗？还是对AluY、Alu的结果不再考虑。
chr1    40278339        40278586        AluY    Alu     SINE    sort/Hs_AluY.bed.gz

这是很重要的一个方面。这里的确是我在分析和处理的时候的失误。

标签：sort,25,记录,histone,bed,实验,xxzhang,human,data
来源： https://www.cnblogs.com/zjuer/p/16623240.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9