摘要功能基因组学是在系统水平上揭示自然界生物系统功能的科学,是当前生命科学的重要研究领域。蛋白质作为基因的表达产物,成为了探索基因功能的研究对象。蛋白质功能的推断不仅有助于生物学家理解基因的表达机制,而且对新型药物研发和疾病诊断等方面都具有非常重要的现实意义。蛋白质功能预测旨在使用计算方法对蛋白质的功能进行自动化注释,从而为生物实验提供指导意义。近几年来的蛋白质功能预测方法大多关注于序列信息,忽略了蛋白质相互作用(Protein-ProteinInteraction,PPI)这一环境特性。以往基于网络的预测方法对于不同物种需要使用不同的模型进行预测,因此可迁移性较差。此外,这些方法没有考虑到不同物种之间存在标签数据量不平衡的问题。<br> 针对现有方法中存在的问题,本文以多物种的PPI网络为基础,提出一个采用跨物种网络传播策略的蛋白质功能预测算法。首先,该算法使用序列分析工具InterProScan提取的特征信息作为输入,从而能够同时考虑蛋白质的序列和网络信息。其次,该算法使用序列相似性网络作为多物种PPI网络之间信息传播的桥梁,使得与功能有关的信息能够跨物种传播,以缓解物种之间数据不平衡的问题。最后,该算法以注意力机制为指导,同时传播蛋白质的特征和标签信息,在降低噪声影响的基础上提升预测性能。实验结果表明该算法所采用的跨物种网络传播策略和注意力机制的有效性。<br> 跨物种网络传播方法虽然具有较高的预测性能,但存在执行效率低的问题,因此在时间和硬件条件有限的情况下无法很好地应用。针对此问题,本文提出一个基于多类型嵌入的蛋白质功能预测算法,从三个方面进行改进:第一,本文使用预训练的蛋白质语言模型ESM2将序列数据进行嵌入。这种特征提取方式不仅能够有效减小时间成本,而且具有处理任意输入序列的优势。第二,本文将蛋白质的功能标签嵌入为低维度的表示向量,从而大幅度降低标签传播的时间消耗。第三,本文重新构建了具有多种关系类型的多物种PPI网络,并将注意力机制扩展为基于节点特征和关系的计算方式。这种方式能够避免关系聚合的步骤,使得模型具有更大的数据并行性。实验结果表明这些改进有效提高了模型的执行效率,并且在一定程度上保持了良好的预测性能。
更多相关知识
- 浏览0
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



