基于转录组学和变分自编码器的癌症分期诊断研究
Cancer staging diagnosis based on transcriptomics and variational autoencoder
摘要目的 旨在对 10 种癌症转录组学数据开展深度分析与特征提取,进而实现对癌症样本的分期诊断.方法 在UCSC Xena网站收集发病率最高的10种癌症转录组学数据(包含4 938个样本和59 428个基因),以变分自编码器为基础,利用特征重要性排序思想,通过引入掩码算法和增量特征选择方法(incremental feature selection,IFS),构建了增量特征排序选优变分自编码器(incremental feature ranking and selection variational autoencoder,IFRSVAE);与随机森林(random forest,RF)、支持向量机(support vector machine,SVM)和极限梯度提升树(eXtreme gradient boosting,XGboost)结合测试了该方法的性能,并同其他方法进行比较.结果 提取了21个特征用于后续分类,较于传统变分自编码器、递归特征消除和Lasso回归模型,IFRSVAE模型在3种分类器上均取得了较好性能(AUC值最高,其余指标也表现良好);其中IFRSVAE-RF表现最好,AUC达到了85.49%(95%CI:83.24%~87.74%).此外,还应用了沙普利加性解释(Shapley additive explanations,SHAP)模型对特征贡献进行展示.结论 本研究探索并验证了IFRSVAE在特征提取方面具备一定成效.基于此构建的IFRSVAE-RF模型,在癌症分期诊断任务中展现出较好的表现,为深度学习在癌症分期诊断方法的研究方向上,提供了一种可供参考的新思路.
更多相关知识
- 浏览5
- 被引0
- 下载1

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



