标签:trim 双端 adapter 测序 galore reads 生信
trim_galore
注意:软件工具一般会定期进行迭代更新,如果使用出现问题,请查看官方文档。
-
网址:http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
- 需先安装fastqc和cutadapt
-
Trim galore简介
Trim Galore是对FastQC和cutadapt的包装。适用于所有高通量测序,包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA测序平台的双端和单端数据。主要功能包括两步:第一步首先去除低质量碱基,然后去除3' 末端的adapter, 如果没有指定具体的adapter,程序会自动检测前1 million的序列,然后对比前12-13bp的序列是否符合以下类型的adapter:- Illumina: AGATCGGAAGAGC
- Small RNA: TGGAATTCTCGG
- Nextera: CTGTCTCTTATA
-
示例:
## 处理双端测序结果
echo " trim_galore cut adapters started at $(date)"
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 \
--paired $dir/cmp/01raw_data/$fq1 $dir/cmp/01raw_data/$fq2 \
--gzip -o $input_data \
-a1 ATCG... \
-a2 TAGC...
echo "trim_galore cut adapters finished at $(date)"
- 参数说明:
--quality
:设定Phred quality score阈值,默认为20。
--phred33
:选择-phred33
或者-phred64
,表示测序平台使用的Phred quality score。
--adapter
:输入adapter序列。也可以不输入,Trim Galore会自动寻找可能性最高的平台对应的adapter。自动搜选的平台三个,也可以直接显式输入这三种平台,即--illumina
、--nextera
和--small_rna
。其中adapter1 为3'端引物,通常不同组织样有自己对应的引物,公司提供的word里面都附带的有,此处执行命令时需要在该序列前添加A,不然程序会提醒adapter不完整a2后面的其实是5'端引物的反向互补序列
--stringency
:设定可以忍受的前后adapter重叠的碱基数,默认为1(非常苛刻)。可以适度放宽,因为后一个adapter几乎不可能被测序仪读到。
--length
:设定输出reads长度阈值,小于设定值会被抛弃。
--paired
:对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样抛弃,而不管是否达到标准。
--retain_unpaired
:对于双端测序结果,一对reads中,如果一个read达到标准,但是对应的另一个要被抛弃,达到标准的read会被单独保存为一个文件。
--gzip
和--dont_gzip
:清洗后的数据zip打包或者不打包。
--output_dir
:输入目录。需要提前建立目录,否则运行会报错。
-- trim-n
: 移除read一端的reads
标签:trim,双端,adapter,测序,galore,reads,生信 来源: https://www.cnblogs.com/dataanaly/p/13185942.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。