基于机器学习和算法改进构建乳腺癌肺转移风险预测模型
Novel models by machine learning and algorithm improvement to predict the risk of breast cancer lung metastasis
摘要目的 基于 9 种机器学习算法构建乳腺癌肺转移风险预测模型,并以性能最优的模型为基础进行算法改进,进一步提升模型的预测效果,最终开发可视化风险评估工具.方法 根据纳入标准和排除标准,对监测、流行病学和最终结果(SEER)数据库中的患者进行筛选,使用Logistic回归模型和最小绝对收敛和选择算子(LASSO)回归分析筛选临床特征变量.基于决策树(DT)、逻辑回归(LR)、随机森林(RF)、K最近邻(KNN)、支持向量机(SVM)、朴素贝叶斯(NB)、极端梯度提升(XGBoost)、随机梯度提升(SGBT)和人工神经网络(ANN)共 9 种机器学习算法构建预测模型,通过引入代价敏感学习对预测性能最优的模型进行算法改进,并建立乳腺癌肺转移风险计算器.结果 本研究共纳入SEER数据库中 11 166 例乳腺癌患者,并筛选出 15 个具有统计学意义的特征变量.选择预测性能最优的SGBT[曲线下面积(AUC)值=0.717]进行后续算法改进,结果表明改进后模型即代价敏感学习(CS)-SGBT综合预测性能最优(准确率:0.713,召回率:0.710,F值:0.602,AUC值:0.788).Shapley加性解释值(SHAP)分析结果表明,15 个特征变量的贡献度依次为远处淋巴结转移、骨转移、T分期、是否手术、病理分级、N分期、原发肿瘤部位、是否放疗、年龄、婚姻状态、分子分型、脑转移、种族、雌激素受体表达和性别.构建乳腺癌肺转移风险预测计算,并通过 63 例北京电力教学医院收治的晚期乳腺癌患者对CS-SGBT预测效果进行验证(准确率:0.639,召回率:0.406,F值:0.542,AUC 值:0.798).结论 本研究通过机器学习和算法改进,构建了一种可解释的基于CS-SGBT的预测模型,对临床评估乳腺癌肺转移风险提供了良好的参考价值.
更多相关知识
- 浏览3
- 被引0
- 下载2

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



