基于多组学Lasso回归分析构建肝癌预测模型
A liver cancer prediction model based on multi-omics Lasso regression analysis
摘要目的:通过生物信息学方法整合肝癌转录组和甲基化组数据,利用Lasso回归分析筛选肝癌特异性标志物,并构建肿瘤预测模型.方法:在GEO(gene expression omnibus)中下载GSE70091、GSE77314数据集,共53例肝癌患者的转录组测序(RNA-seq)和全基因组甲基化测序(WGBS)数据,分别将肝癌与癌旁对照间的转录组、甲基化组数据进行差异分析,并对差异表达基因(DEG)和差异甲基化基因(DMG)进行整合,以筛选出候选肝癌标志基因.对候选肝癌标志基因进行GO(gene ontology)和Re-actome通路富集分析,使用Lasso回归分析筛选标志基因,构建肝癌预测模型,并在其他队列中进行性能验证.结果:共筛选出288个DEG(|log2FC|>1,P.adj<0.05)和28 528个DMG(P<0.05),通过DEG和DMG的交叉分析找到51个高甲基化下调(Hyper-Down)基因和111个低甲基化上调(Hypo-Up)基因.GO和Reactome通路富集分析显示,Hypo-Up基因主要富集在细胞有丝分裂通路上(FDR<0.05,P<0.05),Hyper-Down基因主要与转录激活的功能相关(FDR<0.05,P<0.05).使用Lasso回归分析筛选出11个具有非零系数的基因并构建肝癌预测模型.最后在GSE77314、外部验证队列(TCGA-LIHC)中验证出模型曲线下面积(AUC)分别为1、0.998.结论:通过整合肝癌多组学数据,使用Lasso回归分析筛选出11个基因标志物,并构建肝癌预测模型.
更多相关知识
- 浏览21
- 被引0
- 下载22

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文