基于不均衡数据的风险因素筛选与Nomogram预测模型构建研究
Research on risk factor screening and Nomogram prediction model construction based on unbalanced data
摘要为解决并优化模式识别过程中因数据不均衡导致分类结果偏向多数类的问题,本研究以加利福尼亚大学尔湾分校(UCI)心肌梗死数据集为研究对象,构建了Nomogram预测模型.首先,采用K折交叉抽样投票法(K-CSV)、合成少数过采样技术_标准连续(SMOTE_NC)和随机欠采样(RUS)3 种不均衡数据处理方法,结合互信息、支持向量机权重、Spearman相关分析与方差膨胀因子,去除多重共线性特征;其次,使用单因素及多因素Logistic回归筛选独立风险因素,并构建Nomogram预测模型.结果表明:在原始不平衡数据下,模型受试者工作特征曲线下面积(AUC)值为0.85,平均精确率(AP)值为0.64;RUS处理后,AUC值为0.87,AP值为0.86,Ⅱ型错误率为11.54%;SMOTE_NC处理后,AUC与AP为0.96,但准确率降至79.89%,Ⅱ型错误率增至 29.73%;K-CSV的AUC与AP值均为 0.90,Ⅱ型错误率为 10.53%.Cox回归分析结果显示,选定特征与患者预后显著相关(P<0.01),表明所建模型在生存风险预测中具有较高的可靠性.
更多相关知识
- 浏览3
- 被引0
- 下载1

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



