摘要大量的化合物-蛋白质互作(Chemical-proteininteraction,CPI)关系隐藏在生物医学文献中,这些生物实体之间的关系对药物发现、临床医学和结构化生物医学数据库的构建起到重要作用。然而手工提取CPI既昂贵又费时,因此应用自然语言处理(Naturallanguageprocessing,NLP)技术从生物医学文献中自动提取CPI关系是一项重要且有应用价值的任务,并且此项研究仍有较大的改进空间。<br> 首先,本文选取了NLP领域中三个具有代表性的预训练语言模型Word2Vec、ELMo和BERT,通过实验比较了它们在CPI任务中的表现。针对生物医学文本关系抽取普遍存在的语料较少的问题,本文以这些已在外部大型语料库上预训练的语言模型为基础,用CPI任务语料对其进行微调(Fine-tuning)以获得更好的文本特征表示。通过比较预训练语言模型Word2Vec、ELMo和BERT对CPI任务性能的影响,发现预训练的BERT经过微调后能大幅度提高CPI关系抽取性能。<br> 然后,本文提出了一种新的基于神经网络的多分类模型,该模型综合利用文本语义和句法信息进行CPI关系抽取。一方面,先在ChemProt语料库上微调预训练的BERT模型,来学习语料中句子的深层上下文表示。接着将得到的上下文表示输入到双向长短记忆神经网络(Bi-directionallongshort-termmemoryneuralnetwork,Bi-LSTM),结合多头注意力机制,对文本编码实体对语义特征。另一方面,获取句子中实体对的最短依存路径(Shortestdependencypath,SDP),将SDP上的单词序列作为卷积神经网络(Convolutionalneuralnetwork,CNN)模型的输入,以此学习实体对的句法特征。最终将语义和句法特征结合获得样本深层特征,用分类函数实现CPI关系的预测。在ChemProt语料库上的实验表明,本文提出的模型获得了0.773的F1值,显著高于现有的最先进方法。<br> 最后,本文设计并实现了交互式的CPI关系抽取系统,并提供了Web访问。该系统可以检索在PubMed中存在的包含指定化合物-蛋白质实体对的文献,还可以预测实体对的CPI关系类型,为相关科研人员的数据处理工作提供了方便。
更多相关知识
- 浏览0
- 被引1
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文