首页 > 北京中医药大学学报 > 基于大语言模型与文本嵌入计算的中医证素辨证自动化方法研究

基于大语言模型与文本嵌入计算的中医证素辨证自动化方法研究

Automated syndrome element differentiation in traditional Chinese medicine based on large language models and text embedding computation

二维码有效期 120s

摘要目的本研究旨在开发一种自动化的中医证素辨证方法.方法首先,基于领域知识、同义术语、辨证论治及中医医案标签4 种不同中医药相关任务数据集,构建并训练指令调优中医多任务文本嵌入模型(Instr-MT-TCM).其次,组织5 位具有硕士以上学历的中医诊断学专家从真实世界中医药病例数据集进行数据筛选并标注症状体征,用以评估Instr-MT-TCM与大语言模型(LLM)协同方法和人工标注结果在证素辨证任务中的F1 分数.最后,为验证该方法在真实临床环境下的可行性,将其应用于48 例真实世界前列腺癌病例的证素积分计算.结果 Instr-MT-TCM模型在训练初期表现出快速性能提升,其前 1 召回率(R@1)为 0.848.专家筛选出 1 793 例真实世界中医药病例,涵盖临床常见的34 种疾病与 66 种证型.在证素辨证任务中,LLM与Instr-MT-TCM协同方法的平均F1 分数为0.927,明显优于人工标注的 0.512.在 48 例前列腺癌病例的证素分析中,病性证素以火(热)和阴虚为主,病位证素以膀胱和肾为主.结论本研究创新性提出并验证了一种基于LLM与Instr-MT-TCM协同的中医证素自动化辨证新方法.该方法在真实世界数据上取得高F1 分数(0.927),展现出高度准确性与强大的泛化能力,并在前列腺癌的证素分析中显示出良好的临床应用潜力,为中医智能化证素辨证提供有效的技术支持和新的研究方向.