摘要目的 探讨完全随机缺失条件下连续型随机变量数据缺失对研究结果的影响,对各方法插补效果进行比较.方法 基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟单变量(吸烟年数sy)缺失,采用了7种方法处理单变量缺失;模拟多变量(吸烟年数sy和每天吸烟支数smd)缺失,采用了4种方法处理多变量缺失.对插补效果从缺失变量均值的变化、插补精确性及插补后模型参数的变化三个方面进行评价.结果 单变量缺失:各缺失率下,回归插补sy均值的偏差最小,MI/REG、MI/PMM和MI/MCMC插补后模型参数的偏差均较小,删除法sy均值与模型参数的偏差均最大.多变量缺失:各缺失率下,回归插补sy均值的偏差最小,删除法最大;条件均值插补smd均值的偏差最小,MI/MCMC最大;条件均值插补模型参数的偏差最小,MI/MCMC最大.结论 用不同指标对各方法插补效果进行评价会得出不同的结果,应根据统计分析的目的和关注点选择最合适的缺失数据处理方法.总体来看,插补法处理缺失数据的效果优于删除法,缺失率越高,优势越显著.
更多相关知识
- 浏览134
- 被引11
- 下载101

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文