摘要药物是治疗疾病的首选方法,药物与靶蛋白的结合,也称为药物靶标相互作用(Drug Target Interaction, DTI),能改变蛋白质的构象和功能,是药物成药性的一个重要属性。然而,药物研发是一项兼具严谨性与复杂性的系统工程,时至今日,仍深陷于研发周期长、资源投入大、风险高且成功率低的现实困境之中。传统的湿实验通常需要借助先验知识,开展大量的生物化学实验和临床实验才能揭示药物与靶标的潜在相互作用关系,这无疑需要投入大量的人力、物力和资金。可喜的是,随着计算机技术和生物学的迅速发展,计算机辅助药物设计为降低成本并提高效率提供了一个有希望的途径。药物-靶标结合亲和力(DTA)预测与传统的基于二分类的 DTI 预测不同,DTA 预测可以获得药物与靶标之间的定量结合亲和力值,从而提供更详细的药物-靶标相互作用描述,极大地降低药物开发的实验成本、缩短药物研发时间,加快了药物的研发进程。因此,研究 DTA 预测的计算模型具有重要的科学意义和应用价值。<br> 本文使用深度学习方法构建了两个 DTA 预测模型,通过图神经网络、Transformer 以及自注意力机制使预测模型的性能得到提升,本文的主要工作概述如下。<br> 其一,通过迁移学习,用 NLP语言模型学习表示生命语言-蛋白质的特征,提出一种基于GNN和双向Transformer编码器的DTA预测模型。该模型仅依赖药物SMILES 字符和蛋白质序列的信息,这些一维序列信息的易获得性保证了实验数据量的充足性。具体方法是:以原子为节点,键为边构建药物分子结构图,并用四个图神经网络变体来学习药物的拓扑特征信息;其次将蛋白质序列理解为生命语言,类似语句,则组成蛋白质序列的单个氨基酸可被理解为单词,应用基于深度双向 Transformer 编码器的语言模型根据蛋白质原始序列生成词嵌入特征,并传入卷积神经网络模块自动捕获蛋白质的潜在特征。最后融合学习到的药物与蛋白质特征,一起输入至全连接层进行DTA值的连续预测。在Davis和Kiba两个基准数据集上进行测试评估,模型性能指标较基线相当甚至更优,达到预期效果,表明所提出的综合考虑药物拓扑结构与蛋白质词嵌入信息建模的策略是有效的。<br> 其二,提出 LSTM-SAGDTA 模型,引入基于自注意力机制的新型图池化方法来抽取药物分子图特征,选择性地关注重点信息,高效捕获药物的重要表征;通过基于具有长短期依赖信息的LSTM特征的语言模型来对蛋白质表征进行优化;简化网络结构,并构建全局和分层两种自注意力图池化策略来改进 DTA 预测。在三个基准数据集上的评估结果表明,两种池化策略均取得了优于各基线模型的性能。除此之外,还通过对比实验和消融实验证明了模型的有效性、稳健性与泛化性, LSTM-SAGDTA有望成为一个优秀的DTA预测器。<br> 本文专注 DTA 预测的计算方法研究,以现有优秀的深度学习理论为基础构建了两个性能良好的DTA预测模型,提高了DTA预测的准确率与灵敏度,为药物研发提供了新的有效计算方法。除此之外,本文的方法和思想可以扩展至生物信息学的其他领域,多方面助力药物研发。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文