基于机器学习分析的浸润性乳腺癌蛋白质编码基因的标志物鉴定
Identification of Protein-Coding Gene Markers in Breast Invasive Carcinoma Based on Machine Learning
摘要目的 应用随机森林(RF)、极限梯度提升算法(XGBoost)、轻量的梯度提升机(LightGBM)、类别型特征提升(CatBoost)4 种机器学习算法分析浸润性乳腺癌转录组表达数据,筛选与浸润性乳腺癌预后相关的生物标志物.方法 通过癌症基因组图谱公共数据库下载浸润性乳腺癌的表达数据,采用DESeq2 程序包、t检验及Cox单因素分析,对人类浸润性乳腺癌样本中与生存预后相关的差异蛋白质编码基因进行筛选.基于RF、XGBoost、LightGBM、CatBoost等机器学习模型的构建与比较,挖掘浸润性乳腺癌预后相关的蛋白质编码基因标志物,并使用基因表达综合数据库的乳腺癌表达数据作为外部测试进行验证.结果 共获得151 个与生存预后相关的差异蛋白质编码基因,其中由C3orf80、UGP2 和SPC25 3 个基因构建的机器学习模型效果较好.结论 筛选出3 个(UGP2、C3orf80、SPC25)与浸润性乳腺癌预后相关的生物标志物,为诊断和治疗浸润性乳腺癌提供了新的方向.
更多相关知识
- 浏览11
- 被引1
- 下载3

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文