首页 > 中国医疗设备 > 基于信息抽取算法与多任务学习的电子病历文本数据研究

基于信息抽取算法与多任务学习的电子病历文本数据研究

Research on Electronic Medical Record Text Data Based on Information Extraction Algorithm and Multi-Task Learning

二维码有效期 120s

摘要目的为解决电子病历文本数据中关键临床信息提取效率低下的问题,支持精准医疗决策与疾病研究,开发一种高效的联合信息抽取算法,实现病历文本中实体与关系的自动化抽取.方法基于病历文本非结构化特征差异,提出一种融合多任务学习的联合抽取模型.首先构建双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络-条件随机场(Conditional Random Field,CRF)基准模型(BiLSTM-CRF),结合双向编码器与CRF完成实体识别;其次,引入多头注意力机制捕捉实体间的远程依赖关系;最后,采用多任务学习框架处理实体关系重叠问题,得到联合模型双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)-BiLSTM-CRF.结果在中文电子病历数据集上进行训练与验证以评估脑血管疾病领域的抽取性能.结果表明,BERT-BiLSTM-CRF模型在数据集上的文本信息实体识别准确度均超过80.00%,且对实体关系的抽取误差结果均不超过0.2,优于其他算法模型.BERT-BiLSTM-CRF算法在脑血管疾病实例数据集上的识别准确度为91.18%,能较好地对医疗文本数据进行关系识别.结论 BERT-BiLSTM-CRF模型能有效突破实体关系重叠的技术瓶颈,为电子病历深度挖掘提供新方法,为临床医疗决策和疾病诊断提供研究思路.