首页 > 中华中医药学刊 > 面向中医药领域专业能力的生成式大语言模型对比研究

面向中医药领域专业能力的生成式大语言模型对比研究

Comparative Study of Generative Large Language Models for Professional Abilities in Traditional Chinese Medicine

二维码有效期 120s

摘要目的评价大语言模型在中医药领域的知识能力与临床能力.方法采用文献研究和实验研究方法,选择9个不同类别的大语言模型,构建知识能力和临床能力数据集,设计中医专业能力prompt,采用自动评估法与专家打分法对大语言模型进行测评,使用方差分析、多重比较方法对比分析大语言模型的医学专业能力水平.结果在知识能力评价中,零一万物(78.93)、智谱清言(77.91)、通义千问(77.22)表现最好,不同模型、不同科目、不同类型模型的知识能力得分差异具有显著性(P＜0.05).在临床能力评价中,各模型生成回复的易读性较高(81.00),但正确性较低(74.86),其中文心一言的平均得分最高(85.40),5个维度分数均达到优秀水平(≥80);不同类型模型的临床能力得分差异具有显著性.结论通用大语言模型在泛化性、易读性、安全性方面具有优势,医学大语言模型在中医专科和中医问诊方面整体表现良好,未来大语言模型在中医药领域的应用具有广泛的发展前景.