首页 > 中国数字医学 > 大模型文档分块方法对病历质量控制效果的影响研究

大模型文档分块方法对病历质量控制效果的影响研究

Impact of document chunking methods of large language models on electronic medical record quality control

二维码有效期 120s

摘要目的:探究检索增强生成(RAG)技术中不同分块方法对电子病历(EMR)质控效果的影响规律,探索电子病历质控场景的最优分块策略,为大语言模型(LLM)在病历质控领域的落地提供技术参考与实践依据.方法:选取固定大小、结构、递归、语义 4 种RAG分块策略,依托国家电子病历书写规范、临床诊疗指南等质控相关文件构建四级知识库,基于DeepSeek-R1-32B等模型搭建实验平台,对某三甲医院 1 500 份住院病历开展质控实验,以医学专家质控结果作为金标准,从精确率、召回率、F1 值及平均质控耗时等指标评估性能.结果:4 种分块方法均能精准识别乙级病历;语义分块策略在缺陷病历扣分项识别中表现最优,F1 值达到89.1%,虽然单份病历质控耗时62 s,长于其他方法,但能显著降低模型幻觉风险,且综合F1 值与质控耗时的加权得分最高,达 0.802.结论:分块语义完整性是影响质控效果的核心因素,语义分块策略在病历质控的精准性与效率之间实现了较优平衡,可嵌入病历管理全流程,为提升电子病历质控效率与质量提供有效技术路径.