摘要癌症已经成为世界范围内影响人类预期寿命长度的重要障碍,在我国,2023年底国家卫健委提出《健康中国行动——癌症防治行动实施方案(2023-2030)》,将癌症的防治纳入到共建共享健康中国的战略目标。作为癌症发生的遗传要素,癌症驱动基因的预测是预防癌症发生和增强人类对癌症认识的重要一环。生物信息学是一种癌症驱动基因重要的预筛选工具,目前本领域国内外的机器学习算法研究存在着未能利用基因节点作为生物学实体天然具有的网络属性。基于图神经网络的算法可以较好的利用基因网络的知识,但目前基于同构图神经网络的癌症驱动基因预测算法不能充分包含与癌症驱动基因相关的生物学实体,且模型缺乏有生物学意义的可解释性输出。<br> 为了更好的利用生物异构信息网络的复杂知识,同时依托生物网络进行模型预测结果可解释性分析,本论文提出了一种基于异构网络元路径的新型癌症驱动基因挖掘方法(MCDHGN),该方法的创新之处在于采用人工设计的基于生物学语义的元路径来提取异构网络中的基因节点表征,将癌症驱动基因的甄别转化为利用异构网络表征进行的的基因节点分类任务,通过事后解释的案例分析增强模型的可解释性。本论文首先使用多种与癌症驱动基因相关的数据构建了一个生物多组学异构网络。通过计算肿瘤样本的基因异常表达情况,包括突变率,甲基化率和基因表达产物的相对量拼接作为网络中基因节点的初始特征,本论文在多组学异构网络中手动标记了九种包含一定的生物学语义的元路径,通过聚合元路径节点内部和跨元路径的信息聚合获得的表示向量作为后续预测任务的新基因特征。本论文将提出的模型与两个现有数据集上的九个同质和异质网络模型进行了比较,并使用AUC和AUPR值评估了模型性能。结果表明,MCDHGN在两个标签数据集中均显示出最佳值。此外,本文希望通过分析不同元路径对节点预测结果的贡献,以案例分析的形式讨论了模型的可解释性,将其案例基因的预测依据显示为生物学实体的联系并为之寻找到相关的文献证据。<br> 为了增强MCDHGN模型的初始特征,并解决癌症驱动基因预测训练集标签不足的问题,本论文提出了数据增强的癌症异构网络表征方法(MCD-HGN_Enhanced)它由两个部分构成,分别是基于GCN的图结构特征编码器,可以得到基因节点在蛋白质相互作用网络的拓扑结构特征以增强基因初始特征;和基于置信度量的限定阈值的top-k伪标签扩张训练架构。本文在多种基线方法上横向对比了图结构编码器加强的初始特征的效果,并且在MCDHGN模型上纵向对比本文提出的训练架构与随机伪标签训练架构和不使用伪标签训练的模型的性能,结果表明本文提出的数据增强的癌症异构网络表征方法表现在多个评价指标上均对原模型有着加强的作用。
更多相关知识
- 浏览0
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



