• 医学文献
  • 知识库
  • 评价分析
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
  • 临床诊疗知识库
  • 中医药知识库
  • 机构
  • 作者
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

医学文献>>
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
热搜词:
换一批

基于深度学习的生物医学文本中的化合物-蛋白质互作关系抽取

摘要大量的化合物-蛋白质互作(Chemical-proteininteraction,CPI)关系隐藏在生物医学文献中,这些生物实体之间的关系对药物发现、临床医学和结构化生物医学数据库的构建起到重要作用。然而手工提取CPI既昂贵又费时,因此应用自然语言处理(Naturallanguageprocessing,NLP)技术从生物医学文献中自动提取CPI关系是一项重要且有应用价值的任务,并且此项研究仍有较大的改进空间。<br>  首先,本文选取了NLP领域中三个具有代表性的预训练语言模型Word2Vec、ELMo和BERT,通过实验比较了它们在CPI任务中的表现。针对生物医学文本关系抽取普遍存在的语料较少的问题,本文以这些已在外部大型语料库上预训练的语言模型为基础,用CPI任务语料对其进行微调(Fine-tuning)以获得更好的文本特征表示。通过比较预训练语言模型Word2Vec、ELMo和BERT对CPI任务性能的影响,发现预训练的BERT经过微调后能大幅度提高CPI关系抽取性能。<br>  然后,本文提出了一种新的基于神经网络的多分类模型,该模型综合利用文本语义和句法信息进行CPI关系抽取。一方面,先在ChemProt语料库上微调预训练的BERT模型,来学习语料中句子的深层上下文表示。接着将得到的上下文表示输入到双向长短记忆神经网络(Bi-directionallongshort-termmemoryneuralnetwork,Bi-LSTM),结合多头注意力机制,对文本编码实体对语义特征。另一方面,获取句子中实体对的最短依存路径(Shortestdependencypath,SDP),将SDP上的单词序列作为卷积神经网络(Convolutionalneuralnetwork,CNN)模型的输入,以此学习实体对的句法特征。最终将语义和句法特征结合获得样本深层特征,用分类函数实现CPI关系的预测。在ChemProt语料库上的实验表明,本文提出的模型获得了0.773的F1值,显著高于现有的最先进方法。<br>  最后,本文设计并实现了交互式的CPI关系抽取系统,并提供了Web访问。该系统可以检索在PubMed中存在的包含指定化合物-蛋白质实体对的文献,还可以预测实体对的CPI关系类型,为相关科研人员的数据处理工作提供了方便。

更多
广告
  • 浏览0
  • 下载0

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷