摘要开放共享已经成为大数据时代科研数据服务的发展趋势。国内外现有药学相关共享数据服务主要采用关键词字符串匹配方式检索,检索结果只是依据字符串编码相近或相似,无法从语义信息、分子结构特征等角度提供相似或相近检索,无法提供包含更深层次信息的搜索结果。从语义信息、分子结构特征等多维度研究挖掘数据之间的深层次联系,提供多维度数据检索服务,更有助于提升检索结果的准确度、深度和广度。论文主要从文本语义相似、分子结构相似、融合语义和分子结构相似基础上的数据检索等几个方面开展研究,详细说明如下。<br> (1)在深入分析药学数据特征基础上,针对数据中大量存在的描述性文本数据,基于文本语义相似性展开研究,构建文本语义网络,并针对语义网络构建中的三元组抽取问题展开深入研究,提出融合上下文和依存句法特征的三元组抽取方法,解决药学数据中三元组重叠问题。方法基于BERT获取文本表示向量,实现头实体抽取;基于BiLSTM提取上下文特征以及基于GCN提取依存句法特征,实现尾实体及关系的抽取,提高了模型对重叠三元组的抽取效果。<br> (2)针对药学数据中存在的分子结构数据,分别从一维和三维特征提取的角度展开研究,并融合一维和三维特征研究实现分子结构相似比较方法。方法共分三步,第一步,针对分子SMILES进行字粒度和词粒度分词,实现基于Word2vec分子一维特征提取;第二步,将分子三维结构映射到三维网格中,实现基于3DCNN的分子三维特征提取;第三步,融合一维和三维特征实现了分子相似计算方法。<br> (3)在构建文本语义网络、融合一维和三维特征的相似性比较等工作基础上,结合数据检索服务实际特征和需要,研究构建融合语义与分子结构相似性的药学数据检索超图,并在其基础上实现高效检索服务。<br> 实验结果证明,本文所提出融合上下文和依存句法特征的药学文本数据三元组抽取方法能够很好的解决三元组重叠问题,构建的语义网络能够很好的支持语义检索;融合一维和三维特征的分子结构相似比较方法,能够有效的获取具有结构相似性的分子;融合语义与分子结构相似性的药学数据检索超图,能够从准确度、深度和广度上提升检索服务能力。论文最后针对基于上述研究成果设计实现的原型系统进行详细说明。测试运行结果表明,论文所提出的方法可靠有效,较好的提升了数据检索服务的质量、效率和用户体验。
更多相关知识
- 浏览0
- 被引0
- 下载1
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文