摘要蛋白质是重要的生物大分子,行使多种生命活动相关的生物学功能。蛋白质的生物学功能很大程度上取决于它们的三维结构,因此蛋白质结构的解析对于了解蛋白质功能具有重要意义。目前的蛋白质结构实验测定方法取得了巨大的成功,比如X-晶体衍射、核磁共振、冷冻电镜等。但是这些实验测定方法有周期长、代价高等局限性,并且存在着一些限制,因此使用计算方法从序列出发进行蛋白质三维结构预测是非常必要的。<br> 蛋白质的多肽链中存在着规则重复的构象,称作二级结构。二级结构单元接触的形成是蛋白质折叠中的重要步骤,决定了蛋白质的整体拓扑结构。因此,准确预测蛋白质二级结构单元接触对蛋白质结构预测有着重要意义。在真实的残基接触图谱中,有接触的二级结构单元通常呈现出特定的模式,因此可以从残基接触图谱中预测二级结构单元之间的接触。然而在具体的应用场景中,只有预测的残基接触图谱可用,其中大量的噪声以及错误的二级结构妨碍了直接预测,因此直接从中发现特定模式的二级结构单元接触的策略是不可靠的。这些缺点使得对二级结构单元接触的准确预测具有很大的挑战性。<br> 本研究中,提出了DISC(Detect Inter-SSE Contacts)方法,旨在克服上述缺点。该方法采用深度学习来发现预测残基接触图谱中的特定模式,进而进行二级结构单元接触的推断。取得了如下成果:<br> (1)发现不同的二级结构单元之间呈现出不同的接触模式:大量的数据分析表明,α螺旋二级结构单元之间的接触会发生在螺旋的表面之间,即两个相互接触的二级结构中,存在一个二级结构上的相距三个或四个序列距离的两个残基与另一个二级结构上的某个残基的距离很近;对于β股二级结构之间的接触,存在正平行和反平行两种模式,即两个连续的β股在三维结构中表现出正平行或者反平行。<br> (2)提出了基于目标识别的二级结构单元接触预测模型:以预测的残基接触图谱作为输入,利用多层神经网络提取特征,避免了直接以预测的残基接触为输入进行预测而引入更多的噪音;同时将预测的二级结构作为特征进行输入,而不是直接用作二级结构的划分,可以有效地避免划分所引入的错误。实验结果表明:本文的方法优于其他二级结构单元接触预测算法,并且具有更好的普适性。<br> (3)验证了模型预测二级结构单元接触的有效性:能利用预测的二级结构单元接触改进蛋白质残基接触预测。蛋白质二级结构单元接触区域通常是残基接触的富集区域,在残基接触预测过程中,通过增加这些二级结构单元接触区域的权重,可以得到更准确的残基接触。本文在基于深度残差网络的残基接触预测方法中,依据二级结构单元接触模型DISC预测得到的二级结构单元接触调节损失函数权重。与未进行权重调整的模型相比,该模型的残基接触预测准确率有明显提高。<br> 然后,利用预测的二级结构单元接触作为约束进行蛋白质三维结构预测。蛋白质二级结构单元接触作为蛋白质的拓扑结构,能够对其三维结构具有有效的约束。本文在基于残基约束和二级结构约束的蛋白质从头预测方法CON-FOLD中,用DISC预测的二级结构单元接触约束来代替该方法的约束,结果显示DISC预测的二级结构约束能够得到更精确的三维结构。<br> 本文提出的蛋白质二级结构单元接触预测方法DISC,不仅提高了二级结构单元接触的预测精度,而且能够有效改善蛋白质残基接触预测和优化三维结构,对于蛋白质三维结构的预测具有重要意义。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文