面向中医药领域专业能力的生成式大语言模型对比研究
Comparative Study of Generative Large Language Models for Professional Abilities in Traditional Chinese Medicine
摘要目的 评价大语言模型在中医药领域的知识能力与临床能力.方法 采用文献研究和实验研究方法,选择9个不同类别的大语言模型,构建知识能力和临床能力数据集,设计中医专业能力prompt,采用自动评估法与专家打分法对大语言模型进行测评,使用方差分析、多重比较方法对比分析大语言模型的医学专业能力水平.结果 在知识能力评价中,零一万物(78.93)、智谱清言(77.91)、通义千问(77.22)表现最好,不同模型、不同科目、不同类型模型的知识能力得分差异具有显著性(P<0.05).在临床能力评价中,各模型生成回复的易读性较高(81.00),但正确性较低(74.86),其中文心一言的平均得分最高(85.40),5个维度分数均达到优秀水平(≥80);不同类型模型的临床能力得分差异具有显著性.结论 通用大语言模型在泛化性、易读性、安全性方面具有优势,医学大语言模型在中医专科和中医问诊方面整体表现良好,未来大语言模型在中医药领域的应用具有广泛的发展前景.
更多相关知识
- 浏览8
- 被引0
- 下载1

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



