摘要肺癌具有高发病率、高致死率等特点,是最常见的恶性肿瘤之一。研究表明,早期肺癌经过治疗后的存活率可达90%以上。但早期肺癌的症状隐匿,往往发现时已经到了中晚期,失去了最佳治疗时机。因此,降低肺癌患者的发病率和死亡率的关键在于对肺癌进行风险评估及早期诊断。传统的肺癌风险评估大多基于统计学的调查问卷,存在精度低的问题;传统的早期肺癌诊断大多采取基于影像学的人工诊断方法,误诊率较高。另一方面,医疗信息化的发展使得医院数据库积累了大量的数据,尤其是电子病历(EMR)蕴含着丰富的疾病相关信息。同时,随着大数据和人工智能时代的到来,运用数据挖掘技术构建肺癌疾病分析模式成为医疗领域研究的热点。因此,本文利用关联规则和决策树算法对肺癌EMR数据进行挖掘,建立肺癌风险评估模型,提出并实现了一个高效、智能的早期肺癌辅助诊断方案。本文的主要研究内容及获得的成果如下:<br> (1)当前研究大多基于CT影像等较为单一的数据,无法全面获取有价值的信息。因此,本文采用文本数据与CT影像数据结合的异构多模态数据,并提出了面向文本和CT影像的多模态数据预处理方法,能够对复杂的数据统一和集成。本文实现的数据预处理方法对其他EMR的数据预处理也有一定的指导作用。<br> (2)针对传统Apriori算法的局限性,本文提出了基于属性分层策略和前剪枝策略的改进肺癌风险评估模型。通过实验分析了本市肺癌疾病与生活习性、发病症状、检验数据等之间的关联关系,并将得到的风险评估因素通过哈佛癌症风险指数来计算个体肺癌患病的风险值,对肺癌疾病的预防具有一定的参考价值。<br> (3)针对早期肺癌辅助诊断模型中挖掘方法单一导致模型准确率低的问题,本文应用主成分分析法(PCA)与C5.0算法结合的方法完成模型构建。利用PCA对属性进行简化,用C5.0算法建立决策树,并加入后剪枝策略。通过实验验证,本文提出的早期肺癌辅助诊断模型的准确率由78.12%提高到了85.41%。
更多相关知识
- 浏览15
- 被引0
- 下载20
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文