面向真实世界的知识挖掘与知识图谱补全研究(四):真实世界数据标注平台搭建及基于预训练语言模型的自动化抽取方法探索

Research on real-world knowledge mining and knowledge graph completion(Ⅳ):construction of a real-world data annotation platform and exploration of automatic extraction method based on pre-trained language models

二维码有效期 120s

摘要目的探索搭建真实世界数据标注平台,并比较检索增强生成式技术(retrieval augmented generation,RAG)结合大语言模型,及预训练语言模型的预训练-微调方法的真实世界数据提取效果.方法以真实世界电子病历数据中的膀胱癌病理记录为例,搭建真实世界数据标注平台,并基于平台标注数据比较RAG结合GPT-3.5,及基于BERT、RoBERTa模型的预训练-微调方法自动化抽取膀胱癌癌症分型、分期的效果.结果全训练集微调的预训练-微调模型抽取效果优于RAG结合大模型的方法与小样本微调的预训练-微调模型,RoBERTa模型效果总体优于BRET模型,但这些方法的抽取效果均有待提升.在测试集中,使用全训练集微调的RoBERTa模型抽取膀胱癌分型、T分期、N分期的F1值分别为71.06％、50.18％,73.65％.结论预训练语言模型在处理临床非结构化数据方面具有应用潜力,但现有方法在信息抽取效果上仍有提升空间.未来工作需进一步优化模型或训练策略,以加速数据赋能.