ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

TCGA肿瘤基因数据的访问(二)

2021-05-27 18:06:28  阅读:294  来源: 互联网

标签:gov 项目 测序 TCGA 基因 gdc 肿瘤 数据


TCGA(The Cancer Genome Atlas)项目完成后,最终和其它的一些肿瘤医学项目一起归档在 GDC Portal网站,方便人们访问。

网址是  https://portal.gdc.cancer.gov

其中除了TCGA的数据还有其它一些医学项目产生的基因测序数据,以及临床信息数据。

网站首页如下:

Screenshot 2019-06-01 at 2.23.57 PM.png

左侧可以点击Projects 根据项目类型,实验类型,基因突变类型搜索样本或数据信息, 也可以在搜索框内直接搜索人体组织部位,基因名或者项目名直接查询, 点击Projects 出现页面如下:

Screenshot 2019-06-01 at 2.32.32 PM.png

这里列出了所有的Projects 中的病人突变频率最高的一些基因名称,可以看到TP53的突变最常见,这是一个抑癌基因,位于hg19  chr17:7,571,720-7,590,868.

右侧的饼图是不同项目中的病人(Case)数目所占比例,最高的是FM-AD这个项目,应该是在TCGA之后发起的项目,目前也已完成。全称是Foundation Medicine Adult Cancer Clinical Dataset,Foundation Medicine是一家做肿瘤基因检测的公司,已经于2018年6月被罗氏制药收购。

数据的信息列表如下:

Screenshot 2019-06-01 at 2.32.58 PM.png

第一列是项目名称,第二列是疾病类型,第三列是发生部位,第四列是来源的主项目,第五列是病人例数,后面是这个项目包含的不同的数据类型例数。

左侧用于筛选的选中栏包括

Primary Site

Program

Disease Type

Data Category  (数据类型, 主要是病人临床信息,测得的基因数据,分析得到的肿瘤病人身上突变的分类,以及基因表达异常和甲基化信息等)

Experimental Strategies (实验策略,包括全基因组测序,基因杂交芯片,转录组测序等等)

Screenshot 2019-06-01 at 2.33.19 PM.png

Screenshot 2019-06-01 at 2.33.37 PM.png

Screenshot 2019-06-01 at 2.33.49 PM.png

Screenshot 2019-06-01 at 2.34.05 PM.png

Screenshot 2019-06-01 at 2.34.16 PM.png

如果是NGS测序得到的数据(Sequence Reads一般是Fastq或Unmapped BAM格式),那么分析的流程可以参考:

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/DNA_Seq_Variant_Calling_Pipeline/

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

这些原始的Fastq,以及比对产生的BAM,以及突变的VCF格式数据都是限制访问的,必须要注册GDC的账号,经过许可才能下载。

我们可以获取的是这些数据经过整合之后的更下游的数据,个人觉得是因为上游的原始数据以及重分析过程本来是比较耗费硬件或资源的,大多数研究人员是不太可能重分析如此大量的数据。

如果要访问这些数据,可以点击Repository

Screenshot 2019-06-01 at 2.36.57 PM.png

Screenshot 2019-06-01 at 2.40.41 PM.png

如图,可以看到bam和vcf.gz 文件是controlled, 一些xlsx文件是open的

Screenshot 2019-06-01 at 3.25.06 PM.png

可以从左侧的浮选框, Access选中open, Workflow Type选中我们需要的数据结果。

其中MuSE,MuTect2,SomaticSniper,VarScan2是分析SNV(点突变)的工具名称,

DNAcopy和GISTIC是分析CNV(拷贝数变异)的工具,

HTSeq和STAR都是分析转录组数据的基因表达(mRNA)的工具,

BSGSC则是用于分析miRNA(微小RNA)的表达的,

miRNA是一种长度在22nt左右的RNA,主要功能是基因沉默,可以调控mRNA的表达。

Liftover则是用于分析基因组上的甲基化位点和甲基化水平的工具。https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Methylation_LO_Pipeline/

来源:华为云社区  作者:benymorre

标签:gov,项目,测序,TCGA,基因,gdc,肿瘤,数据
来源: https://blog.51cto.com/u_15214399/2823339

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有