摘要癌症严重危害着人类的生活健康,肺癌是生活中常见的一种癌症,也是严重影响人类生活健康的一种癌症。关于肺癌的治疗成为了医疗界关注的热点。不断的有学者做关于肺癌病理、肺癌诊断、肺癌治疗等肺癌方面的研究。在研究中,越来越多的学者使用机器学习算法进行建模,通过对已有的数据记录进行分析做研究。通常使用决策树、Logistic回归、神经网络模型等机器学习方法进行研究,而且所得结果非常有价值。SVM常用做工业研究中的分类器,在医学研究方面也有被使用。关于肺癌预后模型的研究,有学者使用人工神经网络方法并应用六项指标进行联合检测探究肺癌患者的生存情况,所得实验结果准确率可以达到88.3%,但存在着数据特征少、数据总量少、建模方法少等缺点。有学者使用 SEER数据集应用决策树、Logistic回归、神经网络模型进行乳腺癌患者预后模型的研究,但是存在着数据预处理上的不足。<br> 本文主要做了以下工作:(1)本文所使用的SEER数据集共有155个特征字段。针对SEER数据集的特点,定义适用于SEER数据集或者其他大型医疗数据集的特征选取方法。最后从155个字段最终选取出27个字段。并且通过实验结果可以看出自定义特征选取方法使模型的性能得到了提升。(2)本文使用决策树、神经网络、SVM、Logistic回归等模型算法分别建立肺癌患者预后模型,对每种模型算法通过改变输入特征和改变算法参数的方式进行研究,得到适用于每个模型算法的最佳输入特征组、得到每个模型算法的最佳参数设置,建立每个模型算法的最优模型。通过对比得出神经网络模型是四种算法中最优建模算法。本文通过整合四种模型算法特征重要性的方式,进而得到可以使模型性能更高的输入特征。以 V119、V24、V64、V108、V136、V8、V117、V97、V21、V27为输入特征,使用 MLP神经网络建模,其中有2层隐藏层,并且隐藏层1的单元数是2,隐藏层2的单元数是1,准确率达到90.423%,是本文的最优模型。(3)本文使用深度学习的深度神经网络方法,建立基于深度神经网络的肺癌患者预后模型,求得模型的绝对准确率并低于本文的神经网络模型的准确率。但通过实验发现当输入特征组的个数增多时,深度神经网络的准确率要优于本文的神经网络模型,因此深度神经网络更适用于输入特征多的情况,深度神经网络对预处理的依赖较少。
更多相关知识
- 浏览0
- 被引10
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文