摘要核糖核酸(RibonucleicAcid,RNA)是一种生物大分子,它存在于生物细胞以及部分病毒中,对于我们的生命活动至关重要。要全面深入地研究RNA分子的结构与功能,首要任务便是精确解析其二级结构。自RNA这一生物大分子被科学界所揭示以来,涌现出了许多预测RNA二级结构的方法,这些方法不断推陈出新,助力了我们对RNA等生命科学的进一步探索。<br> 研究者们最早获得RNA二级结构的方法是通过生物化学实验法直接进行测量,然而这种方法存在诸多局限性,如操作过程复杂繁琐,实验中易受多种不确定因素干扰,且整体成本相对较高。最小自由能法能够依据热力学原则,在众多可能的构象中搜寻并确定RNA分子最为稳定且能量最低的二级结构形态,但是这种算法复杂度高,效率低下,且无法预测假结,在预测能力方面达到了一定的瓶颈。机器学习的诞生使得RNA二级结构预测领域的方法能够应用许多机器学习方法来实现,然而机器学习方法预测RNA二级结构的性能未能实现显著提高,原因在于其模型包含了大量的参数,这导致模型容易过度拟合训练数据,从而导致模型的预测性能不佳。综合过去的研究,RNA二级结构的绝大部分获取或预测方法无法同时满足预测精度高、操作简单、效率高并且成本较低的特点,而另一方面,由于RNA二级结构内部包含了假结这种非嵌套配对形式的复杂结构,因此过去常见的RNA二级结构预测方法也无法很好地表示并预测含假结的RNA二级结构。<br> 深度学习是近年来兴起的一种学习算法,它能够从海量数据的训练中挖掘出其中所隐含的特征信息并做出预测。在本研究中,我们借鉴深度学习的原理设计了一种名为UCEfold的多模态深度学习算法,专门用于RNA二级结构预测。该算法同时将“序列信息”和“图像表示”两种不同模态的RNA数据作为输入,旨在联合提取并利用RNA结构中隐藏的特征信息。在“序列”处理编码器中使用注意力机制进行训练,注意力机制使得模型可以在序列不同的位置上集中注意力,从而实现对有效特征信息更好地拟合,对语义进行更好地提取,有效避免了长距离记忆丢失、梯度消失以及并行计算能力差等问题。在“图像”处理编码器中使用U-net网络对“图像化”的RNA序列进行特征提取,通过其网络结构中独特的上下采样以及跳层连接,将底层的位置信息与深层的语义信息相融合,而原图像经过跳层连接结构能够为上采样的过程补充很多细节信息,这使得U-net网络模型拥有出色的提取特征能力。同时UCEfold在编码的过程中还加入了碱基的配对概率矩阵作为深度学习模型的先验知识来提高RNA二级结构的预测精度,并且在模型的顶层中加入RNA二级结构的基本配对原理作为硬约束条件,使预测结果保持RNA结构的特性。<br> 为了检验模型的效果,我们对UCEfold模型进行了实验测试,结果显示该模型的整体性能明显优于传统的预测方法。为了真实模拟预测未知RNA的准确性,我们使用了一个未知的RNA数据集直接对已训练好的模型进行测试验证,结果证明UCEfold模型具有良好的泛化能力,预测性能依然保持在较高的水准。与此同时,为了评估UCEfold模型在预测具有假结的RNA二级结构方面的性能,我们特意针对一系列富含假结结构的RNA家族展开了相关测试,结果表明UCEfold能够更加准确地预测带假结的RNA序列,较传统方法有很大提升。所有实验表明UCEfold算法在RNA二级结构预测方面具有预测精度高、稳定性好、效率高并且能够准确预测假结的特点,在解决RNA二级结构问题方面有着良好表现和巨大的潜力。我们所采用的多模态深度学习算法有望随着更多高质量训练数据的积累和供给而展现出更为卓越的预测性能。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文