基于Borderline-SMOTE算法与Stacking集成学习的前列腺肿瘤风险预测研究
Risk prediction study of prostate tumors based on Borderline-SMOTE algorithm and Stacking ensemble learning
摘要目的:应用数据挖掘方法,建立高准确率的组合模型,对前列腺肿瘤患者的风险进行预测,为前列腺癌(prostate cancer,PCa)的预防和诊断提供参考.方法:选择在临床医学科学数据中心(301医院)进行前列腺穿刺活检的患者682例,运用互信息作为评价标准筛选出与PCa有关的特征属性;针对机器学习的XgBoost、Logistic回归、Adaboost、K近邻和随机森林算法构建单一模型,应用5折交叉验证算法筛选出预测能力较优的3种模型;使用过采样处理,构建基于Borderline-SMOTE的单一模型及构建基于Borderline-SMOTE的Stacking组合模型并探究不同组合方式的影响;最后选择301医院与芜湖弋矶山医院的37例临床病例作为外部验证集对模型进行检验.结果:通过互信息筛选出19个关键特征属性;在单一模型的研究中发现随机森林模型、XgBoost模型以及AdaBoost模型这3种模型表现较优;而基于Borderline-SMOTE的单一模型使得标签属性趋于平衡,AUC值有大幅提升;构建的3种基于Borderline-SMOTE的Stacking组合模型中以XgBoost、随机森林为初级分类器,AdaBoost为次级分类器的组合模型预测能力最好,其准确率为0.945 4,召回率为0.937 5,精确度为0.957 3,F1分数为0.947 0,AUC高达0.982 3,并且该组合模型在临床验证集上的预测也有较好效果.结论:Borderline-SMOTE过采样处理不平衡数据集十分有效,相较于单一模型的预测,基于多模型融合的Stacking集成学习方式的PCa风险预测方法有着更高的预测精度和良好的推广性能,更有助于PCa的临床诊断.
更多相关知识
- 浏览38
- 被引2
- 下载24

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文