怎么找癌症基因组图谱
癌症基因组图谱(The Cancer Genome Atlas, TCGA)是一个由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)合作建立的大规模癌症基因组学数据库,收录了33种癌症类型的临床数据、基因组数据和表达数据。
一、TCGA数据库简介
TCGA项目始于2005年12月13日,是一项以基因组为基础的大科学研究计划,旨在研究癌症中基因组的变化。与人类基因组计划(HGP)专注于疾病的遗传因素不同,TCGA更关心人类出生后细胞中的基因变化。
该项目的主要特点包括:
二、TCGA数据获取方式
1. 通过TCGA官网或GDC数据门户
访问TCGA官网或GDC(Genomic Data Commons)数据门户是获取原始数据的主要方式。大多数数据是公开的,但部分敏感数据可能需要申请访问权限。
具体步骤包括:
1. 注册账户并登录
2. 选择感兴趣的癌症类型(如乳腺癌、肺癌、肝癌等)
3. 选择数据类型(基因表达、突变、甲基化或临床数据等)
4. 使用下载工具获取数据
2. 通过cBioPortal平台
cBioPortal是一个开源平台,专门用于和分析癌症基因组数据,整合了TCGA、ICGC、GEO等数据库的数据。它提供了直观的可视化界面,适合快速查询和分析。
主要功能包括:
3. 通过ICGC数据库
国际癌症基因组联盟(ICGC)数据库也收集了来自全球的肿瘤样本基因组数据,可作为TCGA的补充资源。
三、TCGA数据类型
TCGA数据库包含多种数据类型,主要分为三个级别:
1. 临床数据:包括患者年龄、性别、病理分期、生存期等信息,有助于了解癌症发展和预后。
2. 基因组数据:
3. 表达数据:
四、TCGA数据分析方法
1. 数据预处理
2. 核心分析方法
3. 高级分析方向
五、相关资源与工具
除了TCGA主数据库外,还有一些相关资源可供利用:
1. GEO与ArrayExpress:存储了大量公开的基因芯片表达原始数据和归一化数据
2. GENT数据库:收集了41000个癌症组织、细胞系和正常组织的芯片表达数据
3. Oncomine:包含715套芯片表达数据集(86733个样本)及临床数据
4. TissGDB:专门存储癌症中组织特异性基因的数据库,整合了HPA、TiGER和GTEx数据
对于想要快速分析的研究者,也有一些在线工具可以"一键"完成部分分析工作,如生成泛癌分析图表等,但使用时需谨慎验证结果可靠性。