摘要采用MIMIC重症数据库中的重症患者数据为数据集,对艰难梭菌感染的发病风险进行预测.针对该数据集的非均衡性,提出一种基于改进SMOTE算法和机器学习的风险预测方法.首先,改进SMOTE算法以实现均衡数据集,通过引入流行病学中常用的参数比值比计算特征权重,改进SMOTE算法中的最近邻样本挑选规则.同时,为避免新合成样本离散特征结构被破坏,对SMOTE算法中的样本合成方法进行改进.其次,采用多种机器学习算法分别构建重症患者艰难梭菌感染的风险预测模型.实验结果表明:采用改进SMOTE算法与CatBoost算法构建的模型对艰难梭菌感染患者的预测效果更佳,该模型在测试集中的曲线下面积(AUC)为0.75,召回率为0.69,在验证集中的AUC为0.73,召回率为0.57.
更多相关知识
- 浏览0
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



