一、核心数据库资源
1. SEER数据库
由NCI管理的权威癌症流行病学数据库,覆盖美国28%-34.6%人口,包含超千万病例的临床信息。
数据内容:发病率、死亡率、生存率、人口统计特征及治疗信息。
应用方向:癌症趋势分析、治疗效果评估、预测模型构建。
访问限制:2025年4月起,中国用户无法直接访问病例级敏感数据,但可通过国际合作间接获取分析结果。
2. TCGA数据库
NCI与NHGRI联合开发的癌症基因组数据库,涵盖33种癌症类型、超2万样本的多组学数据(基因组、转录组、表观组等)。
优势:数据质量高、临床信息全面,支持非实验性研究发表高分论文。
工具推荐:
下载工具:GDC Data Portal、TCGA biolinks(R包)。
分析工具:R/Python(如Pandas、Scikit-learn)。
3. NCDB数据库
美国外科医师学会与癌症学会联合组建,覆盖全美70%新发癌症病例,侧重临床治疗过程和结局分析。
二、数据挖掘方法
1. 技术流程
数据预处理:清洗缺失值、标准化、格式转换(如基因表达数据对数化)。
分析方法:
差异表达分析、共表达网络分析(TCGA)。
生存分析、预后因素评估(SEER)。
机器学习模型(如预测生物标志物)。
2. 工具与代码
SEER:Cox比例风险模型、标准化死亡率计算。
TCGA:
```r
使用TCGAbiolinks下载数据示例
query <
GDCquery(project = "TCGA-BRCA",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification")
GDCdownload(query)
data [5]