首页 > 临床肺科杂志 > 基于机器学习的慢性阻塞性肺疾病与肺腺癌共有基因的人工神经网络模型

基于机器学习的慢性阻塞性肺疾病与肺腺癌共有基因的人工神经网络模型

Artificial neural network model based on machine learning for identifying shared genes in chronic obstructive pulmonary disease and lung adenocarcinoma

二维码有效期 120s

摘要目的建立基于基因表达综合(GEO)数据库的慢性阻塞性肺疾病(简称慢阻肺)和肺腺癌(LUAD)共有基因的人工神经网络(ANN)模型并评价其效果,同时采用单细胞分析解析细胞异质性和微环境动态.方法收集来自GEO数据库的慢阻肺和LUAD患者基因表达数据,以GSE76925和GSE116959分别作为慢阻肺和LUAD的训练数据集,通过差异分析和加权基因共表达网络分析(WGCNA)确定慢阻肺和LU-AD中的候选基因,利用随机森林(RF)和支持向量机递归特征消除术(SVM-RFE)两种机器学习方法进一步筛选出关键基因,基于关键基因构建ANN模型并在外部数据集GSE38974和GSE118370中进行验证.最后,使用单细胞分析疾病组织中的细胞异质性及免疫微环境动态变化.结果使用差异分析和WGCNA共获得47个候选基因,进一步通过机器学习筛选得到3个关键基因(AKAP2、SEMA5A、OTUD1),并利用关键基因分别构建慢阻肺和LUAD的ANN模型,在训练集GSE76925和GSE116959中曲线下面积(AUC)分别为0.936、0.979,在外部验证数据集中GSE38974和GSE118370中AUC值分别为0.751、0.818.单细胞分析结果显示,AKAP2在CD8+T细胞、单核/巨噬细胞中高表达,SEMA5A在成纤维细胞、肿瘤细胞中高表达,OTUD1在单核/巨噬细胞、CD8+T细胞中高表达.结论本研究构建了慢阻肺和LUAD共同驱动基因的ANN模型并得到验证,通过单细胞分析揭示了疾病微环境中关键免疫细胞亚群的动态变化及其与疾病进展的关联,希望能为探索其发病机制和治疗方向提供一个新的视角.