初级保健领域基于机器学习预测模型研究的设计特征与方法学质量:范围综述

Design Features and Methodological Quality of Researches about Prediction Models Based on Machine Learning in Primary Care:a Scoping Review

二维码有效期 120s

摘要背景近年来初级保健领域基于机器学习预测模型研究发展迅速,但关于其设计特征与方法学质量的研究报道较少.目的系统总结、分析初级保健领域基于机器学习预测模型研究的设计特征与方法学质量.方法采用计算机检索PubMed、Embase、中国知网、万方数据知识服务平台建库至 2023-02-21 发布的初级保健领域基于机器学习预测模型研究,采用叙述性总结和描述方法分析纳入文献的基本特征、预测模型类型、样本量、缺失值处理方法、机器学习算法类型、模型性能评价指标及预测效能、模型验证方法等.结果最终纳入30篇文献,涉及106个预测模型,其中发表时间为 2021～2023 年 17 篇;研究主题涉及呼吸系统疾病 6 篇,肿瘤 4 篇,门诊预约 3 篇;26 篇文献样本量>1 000(占 86.67%,95%CI=68.36%～95.64%);使用机器学习方法处理缺失值者 7 篇;65 个预测模型使用基于树的机器学习算法,其中随机森林使用频率最高(占 32.08%,95%CI=23.53%～41.95%);61 个预测模型使用受试者工作特征(ROC)曲线下面积(AUC)或一致性(C 统计量)作为区分度评价指标(占 57.55%,95%CI=47.57%～66.97%),但仅 14 个预测模型报告了校准度指标(占 13.21%,95%CI=7.67%～21.50%);106 个预测模型多数区分度良好,但 92个预测模型偏倚风险评估结果为高风险(占 86.79%,95%CI=78.50%～92.33%);仅 7 篇文献所涉预测模型进行了外部验证.结论近 3 年来初级保健领域基于机器学习预测模型研究逐渐增多,研究主题主要涉及呼吸系统疾病、肿瘤、门诊预约等;预测模型在样本量、缺失值处理方法等方面存在较大差异,多数预测模型区分度良好,但大部分预测模型未进行外部验证,总体偏倚风险较高.