医学文献 >>
  • 检索发现
  • 增强检索
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
默认
×
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

基于大数据和机器学习的肾癌肺转移预测模型的建立和验证

摘要本文主要从以下几个部分展开论述:<br>  第一部分 肾癌肺转移风险预测模型的建立和验证<br>  目的:基于大样本的SEER数据库和国内本地数据库,通过LASSO回归和Logistic回归双重算法联合筛选肾癌患者发生肺转移的危险因素,结合机器学习构建肾癌肺转移的风险预测模型并验证,为临床肾癌肺转移患者诊断研究提供参考.<br>  方法:提取SEER数据库中2010年1月至2015年12月的初诊肾癌患者相关临床病理数据,以7∶3划分为建模组和测试组.再以患者肺转移情况将建模组分为肺转移组和无肺转移组,对其临床特征进行统计分析,先将所选取的变量纳入LASSO回归,在所得结果中,筛选当值λ取最小值,特征系数非零的变量;同样操作,将所有变量纳入单因素及多因素Logistic回归中,经单因素分析之后将p<0.05的变量保留,并进一步纳入,多因素分析最终筛选出p<0.01的变量为,logistic回归筛选的肺转移危险因素,并将两次结果取交集确定肾癌肺转移的独立危险因素,并进一步对多因素分析所得结果的不同OR值对筛选出的临床特征进行危险性等级区分.将最终筛选出的独立危险因素作为纳入机器学习模型的变量特征.然后,基于建模组数据,将筛选出的独立危险因素设为模型特征变量,建立包括逻辑回归(LR)、随机森林(RF)、梯度提升树(XGB)、朴素贝叶斯(NB)和决策树(DT)在内的五种学习模型.通过交叉验证的方式,增强模型对特征的识别能力,提高预测性能,并使用测试组数据进行内部验证.同时,收集2018年6月至2023年6月在本地单中心初次确诊为肾癌的患者数据作为模型的外部验证集,以验证模型的准确性和泛化能力.利用曲线下面积AUC的值,联合混沌矩阵的相关参数,如召回率,准确度,马修斯系数(Matthews Correlation Coefficient,MCC)和F1分数,对各机器模型综合评估,最终,选择最优的机器学习模型作为肾癌肺转移的风险预测模型.<br>  结果:最终经筛选后共有30925例RCC患者纳入研究,其中有4.19%的患者发生肺转移,总计1296例,肺转移阳性组与阴性组相比得出:初次确诊年龄较大、多以男性发病、种族中白人占比较高、双侧肾患肾癌患者比例低、T分期较高、以ccRCC为常见且区域淋巴结和远处转移多见.两组在婚姻状况的差异无统计学意义(P>0.05).LASSO回归进行特征筛选结果显示:性别、婚姻、种族、病理类型、侧方、TN分期、远处器官转移和肿瘤大小均为非零特征,即为Lasso回归筛选的特征变量,而年龄和分化程度回归系数为零,为非相关特征变量;而单因素Logistic分析发现:年龄56-76岁、已婚、女性、黑人、病理类型、分化程度、双侧肾癌患者、TN分期、远处器官转移和肿瘤大小≥55mm均具有统计学差异(p<0.05).年龄≥76、其他种族和右侧肾癌单因素分析显示p>0.05没有统计学差异,由于哑变量同进同出原则,继续纳入多因素分析,进一步多因素分析结果显示:发生肺转移的危险因素包括:PRCC、ChRCC、低分化、未分化、TN分期、远处器官转移和肿瘤大小≥55mm均具有统计学差异(p<0.01).而年龄、种族、婚姻、性别和侧方经多因素校正后分没有统计学差异,故排除.<br>  通过LASSO回归和Logistic回归的结果取交集原则,最终确立肾癌肺转移的独立危险因素有有病理类型、TN分期、远处转移和肿瘤大小,并通过危险等级分层发现,肾癌患者肺转移的极高危因素有T4(vsT1,OR值>7)、脑转移vs无脑转移,OR值>7)和肝转移vs无肝转移,OR值>7);高危因素有T2、T3(vsT1,OR值:3.0-7.0);N1分期(vsN0分期,OR值:3.0-7.0)、骨转移(vs无骨转移,OR值:3.0-7.0)、肿瘤大小≥55(vs<55,OR值:3.0-7.0).将SSSR数据库纳入的RCC患者以7∶3分为建模组和测试组,纳入建模组21647例,测试组9278例;甘肃省人民医院310例肾癌数据作为验证组,将上述最终选择的独立危险因素作为模型的特征变量,利用建模组数据构建机器学习模型.建模组中,LR模型的5折交叉验证平均AUC:LR的为0.922、NB的为0.891、DT的为0.904、RF的为0.900、XGB的为0.921.利用测试组数据验证各模型的预测性能,结果显示LR的AUC为0.909,NB的为0.881,DT的为0.904、RF的为0.891、XGB的为0.907.同样,利用验证组数据对模型进行验证,结果各机器学习模型的AUC分别为:LR的AUC为0.886、NB的为0.856,DT的为0.87、RF的为0.866、XGB的为0.905.基于测试组和验证组中不同模型间的AUC、召回率、准确度、F1分数和MCC各指标综合评价得出,XGB为本研究的最佳模型,LR次之.考虑到XGB模型解释性不足,故通过LR模型绘制列线图示例,校准曲线展示了在其在测试组和验证组中预测结果与实际结果的较为统一.<br>  结论:发生肺转移的肾癌患者主要的临床特征如下:初次确诊年龄较大、多以男性发病、种族中白人占比较高、双侧肾患肾癌患者比例低、T分期较高、以ccRCC为常见且区域淋巴结和远处转移多见;肾癌患者发生肺转移的极高危因素有:T4期、合并脑转移和肝转移;高危因素有:T2期、T3期、N1分期、合并骨转移和肿瘤≥55mm;基于独立危险因素构建机器学习肾癌肺转移模型具有良好的预测准确性,其中以XGB模型表现最佳,LR模型次之.<br>  第二部分 肾癌肺转移患者预后模型建立和验证<br>  目的:基于大样本SEER数据库的临床数据进行整理和统计,分析肾癌肺转移患者预后因素,并建立一种简单有效的生存预后预测模型,并对该模型进行验证和评价.<br>  方法:将基于SEER数据库收集的患者数据随机划分的建模组(n=21647)中的肾癌肺转移阳性患者(n=890)作为训练集,将测试组(n=9278)中的肾癌肺转移阳性患者(n=406)作为验证集.对建模组和测试组肾癌肺转移阳性和阴性患者数据进行临床病理特征分析,通过Cox回归分析筛选出肾癌肺转移患者的独立预后影响因素,具体如下,基于训练集数据,对所有选取的变量进行单因素COX分析,将p<0.05的变量特征,再一次进行经过多因素回归分析,筛选出的各因素即为影响肾癌患者肺部转移病情的独立预后因素.根据预后因素得出的结果,将上述独立预后因素再次纳入多因素COX回归并建立相应的回归模型,用R语言软件绘制肾癌肺转移患者总生存期(Overall survival,OS)的列线图,比较列线图和7版AJCC-TNM分期在肾癌肺转移预后方面的预测性能,通过C-index、AUC、内部验证集数据和校准曲线对列线图进行性能评估和数据验证,最后,依据决策曲线分析(DCA)的结果,评估该列线图的临床效用价值.<br>  结果:最终经筛选后建模组中有890例肾癌肺转移患者纳入训练集,测试组中有406例患者纳入验证集.在建模组和测试组中,肺转移阳性患者与阴性患者有以下特征:初诊年龄偏大主要集中在56-76岁,转移患者以男性为主,白人偏多,分化程度以低分化和未分化多见,病理类型以透明细胞癌为主,T分期偏晚,多数肺转移患者伴有淋巴结侵犯或远处转移,肿瘤多≥55mm;在治疗方面,肺转移患者多有原发部位手术且伴有4组或以上淋巴结清扫,化疗占比偏多.在建模组中,肺转移阳性患者与阴性患者在年龄、性别、婚姻、种族、病理类型、分化程度、侧方、TN分期、远处转移、肿瘤大小、原发部位手术信息、区域淋巴结清扫、放疗、化疗、生存时间和生存状态方面均具有统计学差异(p<0.05).在测试组中,肺转移阳性患者与阴性患者在年龄、性别、种族、病理类型、分化程度、TN分期、远处转移、肿瘤大小、原发部位手术信息、区域淋巴结清扫、放疗、化疗、生存时间和生存状态方面均具有统计学差异(p<0.05),而在婚姻状况(p=0.927)和侧方(p=0.106)方面不具有统计学差异p>0.05).在训练集和验证集中,各变量特征的组间差异p>0.05,说明训练集和验证集随机化分配合理.单因素COX回归显示:年龄≥76岁、女性、T3、T、N1、原发部位手术、放疗、骨转移、肝转移和脑转移为影响预后的危险因素;原发部位手术和放疗为肾癌肺转移预后的有利因素;患者的生存预后则不受婚姻状况、种族、病理类型、分化程度、肿瘤大小、化疗以及侧方的影响.多因素COX回归显示:性别、T分期、N分期、骨转移、肝转移和脑转移为预后影响的危险因素,而原发部位手术为预后影响的保护因素,年龄和放疗经过多因素再次分析后,不是患者的预后影响因素.根据多因素Cox回归分析的结果,将这些因素再次纳入多因素Cox回归分析并建立相应的回归模型,构建预测肾癌肺转移患者OS的列线图得出:列线图在训练集中的C-index是0.6728,而TNM分期在训练集中的C-index是0.5858.<br>  结论:通过对SEER数据库中大规模样本进行筛选,研究肾癌患者肺转移的临床相关因素.发现性别、T分期、N分期、原发部位手术、骨转移、肝转移和脑转移与患者OS显著相关;其中性别、T分期、N分期、骨转移、肝转移和脑转移为预后影响的危险因素,而原发部位手术为预后影响的保护因素.根据这些预测因素,开发了一个预测肾癌转移至肺部患者预后的模型.经过内部验证后发现,该模型在临床实践中表现良好,且其预测效果明显优于AJCC-TNM分期系统.这为患者的临床治疗决策提供了重要参考依据.

更多
广告
导师 周逢海
分类号 R737.11R730.7
发布时间 2024-11-15(万方平台首次上网日期,不代表论文的发表时间)
  • 浏览0
  • 下载0

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new医文AI 翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷