肺腺癌吸烟相关甲基化模式识别分类模型及特征基因的识别研究
Genome-Wide Smoke Related Methylation Signature Genes Identification for Lung Adenocarcinomas
摘要吸烟是导致肺癌的一个重要诱导因素,从全基因组基因甲基化水平出发,利用生物信息学方法,通过建立对当前吸烟/不吸烟样本的模式识别分类模型,识别甲基化特征基因,为揭示不吸烟肺癌患者的患病机理奠定基础.为避免甲基化微阵列数据超高维小样本、高噪声、高相关性以及信息饱和现象淹没真正的特征基因,首次采用迭代多重筛选方法,分别从显著性差异、与基因表达水平的关系、生物功能、分类重要性等多个角度对全基因组甲基化数据进行多步筛选,从而识别吸烟相关特征基因.以TCGA数据库中127个肺腺癌样本为训练集,64个EDRN肺腺癌样本为独立测试集,最终确定了48个关键基因.相应模式识别模型对训练集精度达到87.5%(敏感性、特异性分别为87.2%和87.8%),独立测试集分类精度达到76.4%(敏感性、特异性分别为80.2%和73.6%).交叉研究表明,其中17个基因对癌症发展的重要性已经在其他研究中有所证实,进一步的研究则证明其甲基化的重要性.同时,KEGG和IPA对特征基因在基因调控网络和代谢通路水平的分析表明,特征基因与癌症的发展以及生物功能、细胞发育等都有着密切的联系.
更多相关知识
- 浏览151
- 被引4
- 下载36

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



