摘要构建高质量问答系统的关键是构建高质量的问答对,在医疗领域问答系统的构建中,通过网络爬虫获取问答对难以保证知识的准确性,并且通过人工构建问答对难以保证构建效率。电子病历是半结构化文档,其中包含了大量的知识,通过分析病历结构,可以构造出一部分问答对,对于无结构的含有大量语句的文本,如何从这些文本中提取出问答对是本文的研究重点。因此本文针对医疗领域问答对的构建问题,提出了基于电子病历的问答对构建方法,并将该方法应用于心脏病电子病历中。<br> 本文提出的问答对抽取算法包含两个部分,答案句提取算法和问句生成算法。在基于特征选择的答案句提取算法中,本文将答案句筛选视为短文本分类过程,从心脏病电子病历中的陈述句集合中提取出答案句,为了提升对短文本的描述能力,本文通过结合信息增益、改进相似度计算公式,引入Apriori数据挖掘算法,提出了多层次特征选择与扩展算法,分别从陈述句集合本身和电子病历中提取特征。在基于深度学习的问句生成算法中,本文结合使用依存句法分析和基于BiLSTM-CRF神经网络的命名实体识别算法,生成了疾病类问答对。在基于模板匹配的问句生成算法中,本文通过人工构建问句模板,使用基于TextCNN的分类算法,在embedding层融合心脏病电子病历的结构信息,将答案句分类到对应的模板中。并且,本文从关联度的角度对抽取的问答对进行评估,作为评价问答对质量的参考。<br> 最后,本文将上述算法应用于心脏病电子病历中,从心脏病电子病历中提取了包含专业知识,关联度良好的问答对,有利于日后构建高质量的问答系统。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文