基于预训练图神经网络的药物-标靶结合亲和力预测模型-论文-万方医学网

基于预训练图神经网络的药物-标靶结合亲和力预测模型

二维码有效期 120s

收藏纠错

摘要2020年新冠疫情的爆发让全世界意识到病毒的威力与危害，如何开发针对新型病毒的特效药与疫苗是人类亟待解决的问题。药物发现的首要步骤便是找到针对特定靶点具有药用活性的药物分子基团，所以探究药物标靶蛋白与化学小分子之间的相互作用关系尤为关键。然而，发现潜在药物小分子的传统实验方法投入大量人力物力且耗时长，目前通过使用药物分子相关数据库，建立计算模型筛选药物小分子的方法备受关注。深度学习模型近年来蓬勃发展，不同神经网络模型的提出促进了自然语言处理（NLP）、计算机视觉领域（CV）的发展，同时，深度学习在生物医学领域的应用也发展迅速，在诸如预测蛋白质结构、药物性质的任务上都取得突破性进展，由此，应用深度学习模型探究药物-标靶相互作用也是极具潜力的研究方向。 　　本文提出了一种利用深度学习模型预测药物-标靶结合亲和力的方法。该方法使用改进的长短期记忆网络（LSTM）以及图神经网络（GNN）分别对药物标靶蛋白序列与药物分子图进行特征提取，得到其特征向量，最终合并向量作为药物-标靶分子对的向量表示输入全连接网络对药物-标靶结合亲和力进行预测。 　　本文的具体工作如下： 　　(1)药物分子拓扑结构中包含大量生物化学信息，如化合键成键数，电子数等，应用传统深度学习模型如CNN，LSTM无法有效提取拓扑结构信息，因此，本文应用图神经网络方法提取药物分子图结构信息，通过化学信息学软件处理药物分子数据得到其拓扑结构信息作为输入，分别使用改进的图神经网络框架图卷积神经网络（GCN），图注意力网络（GAT）以及图同构网络（GIN）对药物分子进行特征提取，并比较不同图神经网络的特征提取结果。 　　(2)本文将标靶蛋白的氨基酸序列与自然语言处理中的词、句进行类比，应用长短期记忆模型（LSTM）来提取标靶蛋白的氨基酸序列信息。将大量无标签蛋白数据集用作模型预训练的语料库，使模型获得氨基酸分子潜在的生物学信息。利用预训练好的LSTM模型对药物标靶蛋白进行表示学习，得到其表示向量用于最终的结合亲和力预测任务中，该项工作为蛋白序列的表示学习提供创新性方法。 　　(3)本文对图神经网络进行预训练以解决药物分子标签数据集较少的情况。利用药物分子无标签数据集，不同于LSTM的预训练，本文对图神经网络设置半监督、监督两类学习任务来帮助图神经网络分别学习到节点级、图级的拓扑信息，提升了模型的泛化能力。 　　实验结果与前沿的结合亲和力预测模型相比较，基于相同数据集，证明了本文提出模型在预测药物-标靶结合亲和力任务中的有效性与精确度。