基于两样本孟德尔随机化与可解释机器学习算法的冠心病风险预测模型构建及发病因素探究
Etiological factors for coronary heart disease and construction of a risk prediction model using two-sample MR and interpretable machine learning
摘要目的 本研究旨在利用临床数据和基因变异数据,探究冠心病(coronary heart disease,CHD)的危险因素及其因果关联,并构建可解释的风险预测模型.方法 本研究为回顾性研究,从Kaggle平台和IEU OpenGWAS Project数据库分别收集临床数据和基因变异数据队列.利用SMOTEENN混合采样技术平衡数据,结合Logistic回归模型和两样本MR方法筛选危险因素并分析其因果效应.进一步基于随机森林(random forest,RF)、极限梯度提升算法(eXtreme gradient boosting,XGBoost)和神经网络(artificial neural network,ANN)构建风险预测模型,并通过SHAP算法评估特征重要性.结果 Logistic回归分析显示,性别、年龄、教育程度、吸烟、高血压、总胆固醇、收缩压和血糖与CHD显著相关(P<0.05),而BMI、舒张压、中风和糖尿病等无显著关联.两样本MR分析表明,BMI(OR=1.014,95%CI:1.011~1.017,P=1.720×10-22)、年龄(OR=1.015,95%CI:1.012~1.019,P=3.455×10-18)、日吸烟量(OR=1.007,95%CI:1.002~1.011,P=0.005)、高血压(OR=1.057,95%CI:1.046~1.067,P=5.870×10-28)等11个因素与CHD呈正向因果关系;教育程度(OR=0.970,95%CI:0.960~0.979,P=1.231×10-9)和高密度脂蛋白(OR=0.990,95%CI:0.986~0.993,P=0.002)呈负向因果关系.机器学习模型中,SMOTEENN-RF模型表现最优,准确率达0.887,AUC为0.962.SHAP分析显示,年龄、性别、高血压、收缩压和日吸烟量对模型贡献最大.结论 年龄、高血压、血脂等关键因素与冠心病显著相关,并成功构建了性能优异的SMOTEENN-RF预测模型,为冠心病的风险预警与精准防治提供了可靠的方法学支持和实用工具.
更多相关知识
- 浏览15
- 被引0
- 下载17

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



