ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

生信文件格式-BED文件

2020-06-22 16:06:05  阅读:1025  来源: 互联网

标签:chr7 chromEnd track 起始 BED 文件格式 生信 255


BED文件格式


注释文件就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以下三个提供参考基因组的网站中都有提供,比如Ensemble、NCBI 、UCSC。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。

基因组注释(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser进行可视化比较。

Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。

BED文件中起始坐标为0,结束坐标至少是1; GFF中起始坐标是1而结束坐标至少是1。
处理BED格式和GFF格式的工具主要有BedTools和Tophat 。

1. BED文件格式介绍

BED文件每行至少包含chrom,chromStart,chromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的。

必须的3个字段

1) chrom 染色体的名称(例如,chr1,chrX,chr2_random)或支架(例如scaffold10671)。

2) chromStart 染色体或scaffold中特征的起始位置。染色体中的第一碱基的编号为0。

3) chromEnd 染色体或scaffold中特征的结束位置。chromEnd碱基不包括在特征内,如,染色体的前100个碱基定义为chromSatrt=0, chromEnd=100, 跨越编号为0-99的碱基。

可选的9个字段

4) name 定义BED行的名称,这个名称标签会展示在基因组浏览器中的bed行的左侧

5)score 0-1000的分值,如果在注释数据的设定中将原始基线设置为1,那么这个分值会决定显示灰度水平(数字越大,灰度越高)

6) strand 定义链的方向,"+"或"-"

7) thickStart 起始位置(The starting position at which the feature is drawn thickly)(例如,基因起始编码位置)

8) thickEnd 终止位置(The ending position at which the feature is drawn thickly)(例如:基因终止编码位置) 

9) itemRGB 是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为'On”, 这个RBG值将决定数据的显示颜色

10) blockCount BED行中的block数目,也就是外显子数目

11) blockSize 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目

12) blockStarts 用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应

## UCSC定义BED格式中的两个例子
In BED files with block definitions, the first blockStart value must be 0, so that the first block begins at chromStart. 
Similarly, the final blockStart position plus the final blockSize value must equal chromEnd. Blocks may not overlap.

## Example:
Here is an example of an annotation track, introduced by a header line, that is followed by a complete BED definition:

track name=pairedReads description="Clone Paired Reads" useScore=1
chr22 1000 5000 cloneA 960 + 1000 5000 0 2 567,488, 0,3512
chr22 2000 6000 cloneB 900 - 2000 6000 0 2 433,399, 0,3601

## Example:
This example shows an annotation track that uses the itemRgb attribute to individually color each data line. In this track, 
the color scheme distinguishes between items named "Pos*" and those named "Neg*". See the usage note in the itemRgb description 
above for color palette restrictions. NOTE: The track and data lines in this example have been reformatted for documentation 
purposes. This example can be pasted into the browser without editing.

browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7    127471196  127472363  Pos1  0  +  127471196  127472363  255,0,0
chr7    127472363  127473530  Pos2  0  +  127472363  127473530  255,0,0
chr7    127473530  127474697  Pos3  0  +  127473530  127474697  255,0,0
chr7    127474697  127475864  Pos4  0  +  127474697  127475864  255,0,0
chr7    127475864  127477031  Neg1  0  -  127475864  127477031  0,0,255
chr7    127477031  127478198  Neg2  0  -  127477031  127478198  0,0,255
chr7    127478198  127479365  Neg3  0  -  127478198  127479365  0,0,255
chr7    127479365  127480532  Pos5  0  +  127479365  127480532  255,0,0
chr7    127480532  127481699  Neg4  0  -  127480532  127481699  0,0,255

标签:chr7,chromEnd,track,起始,BED,文件格式,生信,255
来源: https://www.cnblogs.com/dataanaly/p/13177295.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有