摘要蛋白质是具有重要生物学功能的基本大分子,是所有生命系统的基石,了解其三维结构对于药物研发、精准医疗、致病机理研究至关重要。蛋白质分为单结构域蛋白质和多结构域蛋白质,结构域之间通过复杂的相互作用形成多结构域蛋白质。随着深度学习的应用与发展,单结构域蛋白质的预测结构基本达到了实验精度,然而多结构域蛋白质的结构预测仍然是一个挑战。多结构域蛋白质的结构预测方法主要分为构象采样的多结构域组装方法和端到端的全链建模方法。基于构象采样的多结构域组装方法由于传统能量力场的不完善,其组装的自由能最小的模型并不总是与天然结构相对应,同时该方法也伴随着耗时的组装模拟过程。此外,对于端到端的全链建模方法,可用的GPU内存限制了可预测的全链蛋白质的大小。因此,针对上述问题,本文提出了一种基于深度学习的端到端多结构域组装方法。本文的主要工作如下:<br> (1) 在查阅国内外文献的基础上,综述了多结构域蛋白质的研究现状和发展趋势。同时,详细介绍了本文所涉及的基础理论知识,如多结构域蛋白质相关数据库、多域蛋白质结构模型、模板建模、深度学习理论等。<br> (2) 提出了一种基于深度学习的端到端多结构域组装算法(End-To-End Domain Assembly, E2EDA)。首先,基于EfficientNetV2网络结合注意力机制设计了一个预测域间方位的深度学习模型;其次,构建了一个多结构域蛋白质数据集用于训练深度学习模型;然后,基于预测的域间方位直接组装多个全链模型而无需耗时的组装模拟过程;最后,设计打分策略对多个模型进行排序。282 个基准蛋白的实验结果表明,E2EDA 比其他主流组装方法 SADA、DEMO 和 AIDA 分别提高了4.4%、13.3%、34.5%;126个人类蛋白的实验结果表明,E2EDA比先进的端到端全链建模方法AlphaFold2提高了5.6%。<br> (3) 基于上述工作,进一步引入结构类似模板,设计了结构类似模板增强的组装算法(E2EDA Enhanced by Structural Analogue Templates, SAT-E2EDA)。首先,使用结构比对工具TM-align从多结构域蛋白数据库中检测结构类似模板;然后,基于结构相似性对搜索的同源模板和结构类似模板排序,选出最佳的五个模板;最后,从同源模板和结构类似模板中提取模板特征来预测域间方位进而组装多结构域蛋白质。在282个基准蛋白和126个人类蛋白上,SAT-E2EDA比E2EDA的组装精度分别提高了2.3%和5.9%。<br> (4) 在上述方法的基础上,设计并开发了在线组装服务器。基于TensorFlow框架,使用Python语言实现了端到端结构域组装算法。并基于Vue和Spring等前后端框架,使用 Java 和 JavaScript 语言搭建了在线服务器。在线服务器网址:http://zhanglab-bioinf.com/E2EDA。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文