摘要医疗数据的缺失会导致统计功效降低,进而严重影响诊断的准确性,甚至出现误诊.因此,对医疗问题中的各缺失数据选用有效的填补方法极为重要.为了在医疗数据存在缺失的情况下,对数据进行高效填补以提升医疗数据挖掘效果,本文提出了基于乌鸦搜索算法的医疗数据填补方法.设计了数据填补模型,在此基础上确定了算法个体编码与数据填补模型的映射方式,进而应用乌鸦搜索算法对填补模型进行迭代寻优,最后通过最优的填补模型构建完整医疗数据集.在 4 个医疗数据集上与2 种传统填补方法[均值填补(Mean Imputation,MI)、K最近邻填补(K Nearest Neighbor Imputation,KNNI)]等进行了对比实验,人工构造不同缺失率的数据集,运用各填补方法对缺失数据集进行填补,并将分类算法在填补数据集上的准确率作为填补方法的效果评估指标,结果显示,相较于 MI,所提方法使得分类算法在 4 个数据集上平均提高了 3.7%、3.8%、11.1%和17.7%的准确率;相较于KNNI,所提方法平均提升了分类算法4%、14.8%、12.6%和21.7%的准确率.以上结果表明,本文所提基于乌鸦搜索算法的填补方法能够有效完成缺失数据的填补,提升数据挖掘算法的性能.
更多相关知识
- 浏览7
- 被引0
- 下载1

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



