• 医学文献
  • 知识库
  • 评价分析
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
  • 临床诊疗知识库
  • 中医药知识库
  • 机构
  • 作者
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

医学文献>>
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
热搜词:
换一批

基于Transformer的RNA二级结构预测方法

摘要RNA是一种高分子量的复杂化合物,RNA参与蛋白质的合成,调节基因表达,与细胞的分化、代谢等细胞过程以及生物遗传过程具有重要关系。通过了解RNA二级结构继而深入挖掘其功能是药物研究、生物化学和生物信息学等领域的重大问题之一。而实验方法测定不但操作繁琐、费时,而且成本高昂,常常令研究者望而却步。目前已有数十种启发式算法和软件库用于RNA二级结构的预测,但作为其核心问题的计算复杂性在几十年来一直没有得到解决。另一个巨大挑战是假结结构,使得问题更加复杂,假结结构虽然大约只占碱基对的1.4%,但其通常在功能上起重要作用。此外,假结点存在于大约40%的RNA二级结构中,还有助于折叠成三维结构,因此忽视掉RNA的假结结构将不利于RNA结构生物学的发展。<br>  传统计算方法已经达到性能和准确度的瓶颈,不断地对算法加入约束并不总会带来精确度的提升,反而会在计算成本方面带来极大的负担。近年来,传统计算方法同机器学习算法和深度学习相结合,构成了基于机器学习的评分方案、基于深度学习的端到端模型、深度学习与其他算法相结合的混合模型。这些方案在一定程度上解决了手动设计约束和关键性参数的问题,取得了媲美甚至超越传统计算方法的效果。但以上四种方案分别存在以下缺陷:不能预测假结结构;没有利用现有的海量数据对模型预训练;模型编码器的特征提取能力较弱,且不善于处理长距离依赖的特征;完全基于深度学习的端到端模型几乎无法预测未见家族的RNA二级结构。<br>  本文结合Encoder-Decoder模型思想并针对以上缺陷进行改进,提出了一个基于Transformer的RNA二级结构预测模型。该模型使用bpRNA-1m大型数据库对模型的编码器进行预训练,再将模型迁移到Mathewslab的公共数据库做进一步训练。本文提出了改进的碱基最大配对算法对深度学习模型的输出做进一步的修正,从而将深度学习模型同传统计算方法相结合以弥补各自的缺陷。本文提出的模型经过五折交叉验证,在不含假结的tRNA家族上的查准率、查全率、F1-score分别为84.7%、86.2%、85.4%,在不含假结的5sRNA家族上的查准率、查全率、F1-score分别85.8%、87.1%、86.4%,相比于传统计算方法的次优F1-score分别提升了10%和25%,相比于深度学习模型的次优F1-score分别提升了4.1%和4%,在含有假结的tmRNA家族上的查准率、查全率、F1-score分别为62.4%、79.2%、70%,相比于传统计算方法的次优F1-score提升了31%,相比于深度学习模型的次优F1-score分别提升了9%。本文还详细分析了模型针对假结结构相关的碱基对的详细预测结果,针对tmRNA家族的假结结构的查准率、查全率、F1-score分别17.5%、52.1%、26.2%,相比于传统计算方法的次优F1-score提升了36%,相比于深度学习模型的次优F1-score提升了13%。本文还针对预训练、网络结构、改进的碱基最大配对算法对实验结果带来的影响进行了进一步实验和深入的分析。

更多
广告
  • 浏览0
  • 下载0

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷