基于SEER数据库利用机器学习算法构建卵巢透明细胞癌预后模型
Prognostic Model for Ovarian Clear Cell Carcinoma Based on Machine Learning Algorithms Using the SEER Database
摘要目的:本研究旨在基于 SEER 数据库中卵巢透明细胞癌(ovarian clear cell carcinoma,OCCC)患者的临床病理数据,利用多种机器学习算法构建OCCC预后模型,并评估模型的预测性能,以期为OCCC患者的临床治疗和预后评估提供参考依据.方法:本研究利用 SEER 数据库中OCCC患者全部 5 452 例的临床病理资料(2000~2019 年),构建了基于多种机器学习算法的预后模型.研究纳入标准为具有完整临床病理资料、病理确诊为OCCC且诊断年份在 2000 年 1 月至 2019 年 12 月的患者,排除基线或随访资料缺失的患者,研究终点为患者的临床死亡,数据清洗后总例数 1 091 例.选取了 9 个变量作为输入参数,并将患者的死亡情况作为输出参数.采用单因素Kaplan-Meier生存分析和Cox多因素回归分析进行统计分析,并利用Logistic回归模型、决策树模型、支持向量机、随机森林和人工神经网络构建预后模型.模型的预测性能通过灵敏度、特异度、准确度和AUC评估.为解决数据不平衡问题,将数据按照 8∶2 的比例随机分成训练集和测试集,并采用SMOTE过采样和随机欠采样方法进行数据平衡.此外,还利用单因素Kaplan-Meier分析筛选出影响OCCC预后的重要变量,用于构建精简模型并进行模型比较.结果:在单因素Kaplan-Meier回归分析中,种族(P=0.004)、肿瘤左右偏侧(P<0.001)、肿瘤大小(T分期)(P<0.001)、淋巴结转移(N分期)(P<0.001)、远处转移(M分期)(P<0.001)、肿瘤分化程度(即分级)(P=0.030)这 6 个因素对患者生存时间具有显著影响,且 6 个因素之间无多重共线性,方差膨胀因子均<5.多因素Cox回归分析显示,种族中与白人相比,黑人(HR=2.409,P<0.001)与风险显著正相关;肿瘤左右偏侧中与双侧原发相比,左侧原发(HR=0.607,P<0.001)、右侧原发(HR=0.564,P=0.002)与风险显著负相关;T分期中与T1 相比,T2 分期(HR=3.060,P<0.001)和T3 分期(HR=4.721,P<0.001)与风险显著正相关;N分期中,与N0 相比,N1 分期(HR=1.636,P<0.001),M分期中与M0 相比,M1 分期(HR=2.040,P<0.001)与风险显著正相关.比较5 种机器学习模型发现,随机森林模型在训练集和测试集上的AUC值均最高,分别为0.868 和0.762,表明其预测性能优于其他机器学习模型,可以有效预测OCCC患者的预后.5 种模型中,T分期都是影响OCCC预后的最重要因素,特征重要度评分均最高.结论:随机森林模型可以有效预测OCCC患者的预后;T分期是影响OCCC预后的最重要因素.
更多相关知识
- 浏览13
- 被引0
- 下载14

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



