基于机器学习算法的胰腺导管腺癌预后模型构建及其验证
Construction and validation of a prognostic model for pancreatic ductal adenocarcinoma based on machine learning algorithm
摘要背景与目的:胰腺导管腺癌(PDAC)是胰腺癌中最常见的病理类型,其远期预后差,缺乏个体化的预后评价工具.本研究通过SEER数据库中的大样本真实世界数据,基于机器学习算法,构建PDAC患者预后列线图,旨在精准化、个体化评价PDAC患者的预后,为临床决策制定提供参考.方法:根据纳入和排除标准,提取SEER数据库2000-2018年期间经病理学确诊为PDAC患者的临床病理及预后资料.按7∶3随机分为训练集和验证集.在训练集中,分别采用单(多)因素Cox比例风险模型、LASSO回归模型和随机生存森林模型筛选影响PDAC预后的独立因素,构建预测6、12、36个月肿瘤特异性生存期(CSS)和总生存期(OS)的列线图模型.随后,分别在训练集和验证集中利用一致性指数(C指数)、受试者工作特征(ROC)曲线、校准曲线、生存曲线、决策曲线分析对模型进行验证和评估.结果:本研究共纳入4 237例患者,其中训练集2 965例,验证集1 272例,两组基线资料均衡可比.训练集和验证集中患者的中位随访时间分别为18(9~36)个月和18(9~37)个月.多因素Cox比例风险模型显示,年龄、T分期、N分期、M分期、分化程度、手术、系统治疗和化疗是OS的独立影响因素(均P<0.05);年龄、T分期、N分期、M分期、分化程度、手术和化疗是CSS的独立影响因素(均P<0.05).LASSO回归模型显示,年龄、分化程度、T分期、N分期、M分期、化疗、手术、淋巴清扫范围、放疗和系统治疗与OS相关;分化程度、T分期、N分期、M分期、化疗、手术、淋巴清扫范围、放疗和系统治疗与CSS相关.随机生存森林模型显示,影响OS的重要性评分前五位变量分别为:系统治疗、分化程度、N分期、化疗和T分期;而影响CSS的重要性评分前五位变量分别为:系统治疗、分化程度、N分期、化疗和AJCC分期.基于多因素Cox回归模型、LASSO回归模型和随机生存森林模型的分析结果并结合临床重要性,最终选择年龄、T分期、N分期、M分期、分化程度、手术和化疗,共七个临床特征成功构建预测6、12、36个月的OS和CSS的预测模型.模型验证结果表明,对于OS,在训练集和验证集中的C指数分别为0.692(95%CI=0.681~0.704)和0.680(95%CI=0.664~0.698);对于CSS,在训练集和验证集中的 C指数分别为 0.696(95%CI=0.684~0.707)和0.680(95%CI=0.662~0.698).ROC曲线表明模型具有良好的预测价值;校准曲线均靠近理想的45°参考线.结论:年龄、TNM分期、分化程度、手术和化疗是PDAC患者预后的独立影响因素;基于这些变量构建的预测模型,有较高的区分度和准确度.有助于临床医师为PDAC患者制定精准的、个体化的治疗和随访方案.
更多相关知识
- 浏览12
- 被引0
- 下载12

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文