摘要近年来,随着计算机软硬件技术的发展,人工智能和大数据技术得到了深入的研究。将人工智能技术与生物信息学知识相结合,对各种临床中疑难杂症的发病机理进行探寻,发掘其致病基因,并利用基因表达数据的信息进行疾病预测和辅助诊断有着极大的发展前景。帕金森疾病作为一种遗传疾病,目前其发病机理和致病原因尚未明确,医学上对其也缺乏有效的治疗方法,利用数据挖掘技术去寻找帕金森疾病的发病基因,并对其发病进行预测有着非常重要的研究意义。<br> 本论文基于美国国立生物技术信息中心(NCBI)的GEO数据库中的帕金森患者基因表达数据,探寻帕金森疾病的致病基因,并试图通过人类的基因表达数据对帕金森疾病进行预测。具体研究内容如下:<br> 针对基因表达数据易产生缺失值的现象,提出了一种 t 检验-遗传算法缺失值填充方法,该方法在进行缺失值填充的同时,可以对数据特征进行初步的筛选。此外,针对常用的缺失值填充方法结果误差较大的情况,提出了一种改进的k近邻缺失值填充算法。使用多种方法进行缺失值填充,研究结果表明,使用t检验-遗传算法填充缺失值后,特征基因筛选的召回率为 100%,远高于常用的均值法、k 近邻法填充缺失值后所筛选的特征基因召回率,可以将特征基因无遗漏地筛选出来。但t检验-遗传算法填充结果损失较高,准确率也较低,尚有优化的空间。使用改进的k近邻缺失值填充算法所得结果的损失要远小于其他方法的结果,同时也拥有极高的准确率和较高的召回率。改进的k近邻缺失值填充算法拥有十分理想的性能。<br> 对帕金森疾病基因表达数据进行特征选择。分别采用t检验(p<0.01)和相关性方法对帕金森基因表达数据进行特征选择。分类结果表明,t 检验(P<0.01)特征选择的结果较相关性方法可以使分类器的性能达到最优。<br> 使用特征选择后的基因表达数据进行疾病预测模型构建。分别使用XGBoost、支持向量机(SVM)、决策树、贝叶斯、随机森林构建基因表达数据疾病分类模型,采用交叉验证的方式对分类器性能进行评价。实验结果表明,在不同的特征选择条件下, XGBoost分类器均有较出色的表现,准确率和AUC值均明显高于其他分类器,能够更加准确快速的对帕金森疾病进行预测诊断。通过 XGBoost 构建的疾病预测模型,得到了与帕金森疾病相关的重要特征基因,为寻找帕金森疾病的致病基因提供理论依据。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文