RNA二级结构相关预测与ncRNA家族识别方法研究-论文-万方医学网

RNA二级结构相关预测与ncRNA家族识别方法研究

二维码有效期 120s

收藏纠错

摘要核糖核酸（RiboNucleicAcid,RNA）是生物体中重要的生物大分子，可以通过催化、翻译、基因调控等多种方式参与生命活动和复杂疾病的发生发展。研究表明RNA二级结构影响RNA与其他分子的交互和功能的发挥，同时相同家族的非编码RNA（non-codingRNA,ncRNA）具有相似的功能，因此预测RNA二级结构相关内容以及识别ncRNA家族可以促进RNA功能的研究。在RNA二级结构相关预测中，基于生物实验的方法虽然可以获得RNA二级结构轮廓（RNA碱基单双链状态）和RNA二级结构（RNA碱基配对信息），但该方法周期长、成本高且可操作性差。基于计算的方法，CROSS方法可以完成RNA二级结构轮廓预测，但较差的网络结构使其性能偏低，大量的单序列和多序列方法可以完成RNA二级结构预测。单序列方法操作简单且适用范围广，但由于自由能计算方式以及参数不精确，使其性能偏低且预测结构大部分不含假结或仅含部分特定假结；多序列方法在存在较高质量先验知识时性能较高，但当先验知识缺乏或质量较差时无法有效完成预测其适用范围受限。在ncRNA家族识别中，基于生物实验的方法费时费力无法满足大量数据的需求。基于计算的方法主要通过序列比对或学习结构特征的方式识别ncRNA家族。Infernal是基于序列比对的代表性方法，虽然具有较高的正确率，但需要二级结构标注的数据辅助完成预测并且无法有效处理假结，使其适用范围受限且操作复杂。基于特征学习的方法不仅具有较复杂的预测流程，而且由于预测的二级结构不准确使其正确率较低。因此当前不管是生物实验方法还是计算方法均无法比较完善的解决RNA二级结构相关预测以及ncRNA家族识别的问题，需要提出新的基于计算的预测方法快速高效完成预测。 　　综上本文针对基于计算的RNA二级结构相关预测和ncRNA家族识别方法进行研究，主要研究内容如下： 　　（1）基于深度学习的RNA二级结构轮廓预测方法研究 　　RNA二级结构轮廓记录着RNA序列中每个碱基是否配对的信息，精确的预测RNA二级结构轮廓不仅可以促进RNA二级结构的预测，而且可以辅助确认RNA靶位点的信息，同时现存的多种预测方法存在周期长、成本高、性能偏低等不同问题。基于此，本文提出一种基于深度学习的方法RPRes预测RNA二级结构轮廓。RPRes由两部分组成，第一部分基于双向长短期记忆网络（BidirectionalLongShort-TermMemory，Bi-LSTM）创建模型将每一个碱基及其上下文信息编码为格式相同的数据，第二部分基于残差神经网络（ResidualNeuralNetwork，ResNet）创建模型提取学习第一部分的输出数据特征并对其进行分类。实验结果表明，该方法不仅可以快速高效的完成RNA二级结构轮廓预测，而且在性能和泛化能力上有了较大的提升。 　　（2）基于深度学习与新型最大碱基配对原则的带假结RNA二级结构预测方法研究 　　带假结的RNA二级结构预测是一个难点问题，很多方法的预测结构不含假结或仅含一些特殊假结。基于此，本文提出一种基于深度学习与新型最大碱基配对原则的带假结RNA二级结构预测方法DMfold。DMfold首先创建深度学习模型，将每一个碱基预测为其对应的扩展点括号形式，然后提出一种新型最大碱基配对原则，该原则将带假结的结构视为三种嵌套子结构的组合，并设计新型规则通过扩展点括号分别寻找每一类正确配对最多的嵌套子结构，最后合并三个嵌套子结构获得带假结的预测结果。实验结果表明，DMfold不仅可以预测所有类型的假结，而且在多个家族中达到了很好的预测效果。 　　（3）基于多目标遗传算法的RNA二级结构预测方法研究 　　RNA二级结构自由能计算方式以及参数的不准确是造成很多单序列方法性能无法进一步提升的关键问题，同时多序列方法以及DMfold方法仅依靠先验知识预测结构的方式限制了其适用范围。基于此，本文提出一种基于多目标遗传算法的RNA二级结构预测方法MGAfold。MGAfold首先利用深度学习模型将RNA的每个碱基预测为对应的点括号信息，基于预测的点括号信息和结构自由能参数设计两个适应度函数约束结构的预测。然后设计一个多目标优化遗传算法，以点括号适应度函数值最高和自由能适应度函数值最低为优化目标进行迭代优化，输出最优及次优的多个预测结果。实验结果表明，该方法具有较广的适用范围且相比于多种优秀的方法性能得到了较大的提升。 　　（4）基于静态深度学习模型的ncRNA家族识别方法研究 　　现存的ncRNA家族识别方法具有流程复杂、适用范围受限、以及特征不准确影响性能等多个问题。基于此，本文提出一种基于静态深度学习模型的方法ncRFP识别ncRNA家族。ncRFP直接以ncRNA序列作为输入数据，其首先将每一条序列预处理为长度相同的数据，然后创建一个静态深度学习模型直接提取序列特征识别ncRNA家族。ncRFP主要包括两部分：第一部分基于Bi-LSTM和注意力机制创建模型，将方法注意到每一条序列的重要片段上并将其编码为格式相同的数据，第二部分基于全连接神经网络提取学习第一部分输出数据的特征并将其进行分类。实验结果表明，ncRFP不仅简化了识别流程，而且性能超过了多种已有方法。 　　（5）基于动态深度学习模型的ncRNA家族识别方法研究 　　在ncRFP的静态深度学习模型中，由于输入数据经过了截取和填充造成了特征损失和噪声引入影响了性能。基于此，本文提出一种基于动态深度学习模型的方法ncDLRES来适应不同长度ncRNA序列的需求。ncDLRES主要包括两部分：第一部分基于动态LSTM和注意力机制创建模型，将不同长度的ncRNA序列进行编码并将方法聚焦在ncRNA序列重要的片段上，第二部分基于ResNet创建模型提取学习第一部分的输出特征并将其进行分类。实验结果表明，相比于ncRFP，ncDLRES的性能有了进一步的提升。