ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

rsem对转录本进行定量

2021-11-14 21:05:20  阅读:258  来源: 互联网

标签:fq 定量 wheat gtf -- gz 转录 rsem


最近在研究转录本,现在在下载数据,想起来自己有一个博客,就暂且来这里更新一下内容。

要想对转录本进行定量,首先需要下载它的转录组数据,将别人上传的SRR文件的名字整理在wheat.txt中,引用

prefetch --option-file wheat.txt

下载后通过sratoolkits将sra数据转化成fq格式

fastq-dump --split-3 /home/SRR3134001.sra --gzip -O /home/data

--split-3将sra数据的双端拆分成两个文件,原来单端并不会保存成两个文件。gzip将其压缩 -O为输出文件夹

才发现下载好慢啊,一会打算试一下fasterq-dump,据说非常快,应该没毛病。2

fasterq-dump -e 40 --split-3 /home/SRR3134001.sra --gzip -O /home/data

下载fq文件后,开始正式分析。
1、首先对转录组数据进行质控,这里运用fastp写了一个循环

for i in $(seq 1 2)
do
fastp -w 16 \
-i ../wheat${i}_1.fq.gz \
-I ../wheat${i}_2.fq.gz \
-o wheat${i}_clean_1.fq.gz \
-O wheat${i}_clean_2.fq.gz \
--html wheat${i}.html --json wheat${i}.json
done

2、在ensembl plant上下载小麦genome和gtf文件,小麦基因组也太大了,,吓到我了,,还好服务器不会说话,不然多少得骂我几句了。
在开始定量前,首先需要构建索引。

rsem-prepare-reference --gtf genome.gtf genome.fa reference_name -p 8

--gtf genome.gtf:输入基因组GTF注释文件。
genome.fa:基因组文件。
reference_name:索引名称。
-p:线程数。

构建索引后开始定量,我在rsem中直接调用star,在这里再写一个循环

for i in *_1.fq.gz
do
rsem-calculate-expression --paired-end -p 40 --star --star-gzipped-read-file ../02cleandata/${i} ../02cleandata/${i%_*}_2.fq.gz ./${i%_*}
done

--paired-end:表示输入的数据为双端测序数据。
这样就得到结果了。
genes.results和isoforms.results分别是基于基因和转录本水平的定量结果。
isoforms.results中包含了转录本ID,基因ID,转录本长度,有效长度,expected_count,TPM,FPKM和IsoPct(该转录本表达量占基因总表达量的百分比)。

标签:fq,定量,wheat,gtf,--,gz,转录,rsem
来源: https://www.cnblogs.com/qinziting/p/15553261.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有