摘要目的:<br> 1.基于肺癌幸存者体力活动水平预测的理论框架纳入相关的研究变量,分析肺癌幸存者体力活动水平及影响因素。<br> 2.使用随机森林、支持向量机、K近邻算法、决策树、梯度提升树分别构建肺癌幸存者体力活动水平的预测模型,并选择最优模型,以期及早识别体力活动不足的肺癌幸存者,为临床制订针对性的干预措施提供理论参考。<br> 方法:<br> 1.采用便利抽样法,于2023年1月至2023年12月在江苏、上海、山东、安徽、江西、湖北、广西、新疆、云南等地17所医院的胸外科、呼吸科和肿瘤科选取符合纳排标准的肺癌幸存者进行问卷调查。问卷内容包括一般资料、健康相关体质、安德森症状评估量表、医院焦虑抑郁量表、社会支持量表、健康行为能力自评量表和国际体力活动问卷。使用MicrosoftExcel2019对数据进行清洗和预处理。使用SPSS25.0对数据进行单因素和相关性分析,显著性水平设置为α=0.05,选取有统计学差异的变量进行多因素Logistic回归,多因素分析结果中以P<0.05为标准,筛选体力活动水平的预测因子。<br> 2.多因素分析中有统计学意义的变量为自变量,体力活动水平作为因变量,构成最终数据集。按照7:3的比例划分数据集为训练集和测试集。在Python3.10.13中使用训练集数据,基于随机森林、支持向量机、K近邻算法、决策树、梯度提升树5种机器学习算法,分别构建肺癌幸存者体力活动水平预测模型。使用网格搜索结合5折交叉验证法选取最优参数及最佳模型;使用单独的测试集数据对预测模型进行验证;采用准确率、精确率、召回率、F1分数和AUC值对5种预测模型的性能进行评估,并选择最优模型。<br> 结果:<br> 1.共发放2487份问卷,回收2487份。对数据进行预处理后,剔除缺失数据大于30%的变量9个,缺失数据大于10%的问卷213份、重复问卷30份,最终共纳入2244份问卷。本研究纳入的肺癌幸存者中666例(29.7%)为低体力活动水平,1183例(52.7%)达到中体力活动水平,仅395例(17.6%)达到高体力活动水平。多因素Logistic回归分析中有统计学意义的变量包括地区分布、职业、婚姻状况、吸烟状况、肺癌组织学类型、治疗方式、区域淋巴结分期、合并疾病、肺活量、握力、6分钟步行距离、白蛋白、血尿素、血红蛋白、焦虑、抑郁、社会支持、健康行为能力,为预测模型的构建筛选出18个预测因子。<br> 2.使用随机森林、支持向量机、K近邻算法、决策树、梯度提升树5种机器学习算法分别构建5种预测模型。5种预测模型的AUC值在训练集中分别为0.98、0.88、0.89、0.84、0.95,在测试集中分别为0.83、0.81、0.78、0.79、0.84,均具有较好的预测能力。其中模型性能表现最优的是随机森林,在训练集中的准确率、精确率、召回率、F1分数和AUC值分别为0.89、0.91、0.89、0.88、0.98,在测试集中分别为0.67、0.73、0.67、0.63、0.83。<br> 结论:<br> 本研究中肺癌幸存者的体力活动水平大部分处于中、低水平。基于机器学习使用肺癌幸存者体力活动水平的18个预测因子所构建的5种预测模型均具有较好的预测性能,其中随机森林模型的预测性能最优,更适合对肺癌幸存者的体力活动水平进行预测。临床医护人员使用基于随机森林构建的肺癌幸存者体力活动水平预测模型,可及早识别体力活动水平不足的患者,制订针对性的干预措施,以提高其体力活动水平,进而改善生活质量。
更多相关知识
- 浏览5
- 被引0
- 下载9

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



