首页 > 实用口腔医学杂志 > 大语言模型应用于前牙美学修复中的可信性研究

大语言模型应用于前牙美学修复中的可信性研究

The trustworthiness of large language models in the application of anterior teeth aesthetic restoration

二维码有效期 120s

摘要目的:评价"生成式人工智能技术——中文大语言模型"在前牙美学修复领域问题解答中的可信性,并探究如何通过相关人工智能技术提升已有模型在口腔专业问题解答中的可信度.方法:选取4个国内领先的中文大型语言模型——百川大模型3.0(A)、智谱清言GLM-4(B)、文心一言3.5(C)及通义千问(D),针对十个典型前牙美学修复问题进行了测试.通过权威资料、学术文献及专家意见确立标准答案,并对比模型回答的准确性.采用柱状图直观展示各模型在每个问题上的召回率和幻觉率,以便于性能比较.在与大语言模型交互时加入了思维链(CoT)技术,观察是否能够对模型回答前牙美学修复相关问题时的召回率和幻觉率产生积极影响.针对A和B两款模型,打开联网功能,观察检索增强生成(RAG)技术是否可改进模型的回答质量.结果:A～D组模型平均召回率分别为0.416 7±0.13、0.350 5±0.20、0.358 7±0.01和0.561 9±0.04,平均幻觉率分别为0.465 1±0.04、0.694 6±0.13、0.501 8±0.08和0.311 9±0.09.通过独立样本T检验对D组和A组进行了对比分析,结果显示D组在召回率和幻觉率上的优势较显著(t≈15.53,P＜0.05).引入CoT技术与模型交互,发现整体召回率有所提升,某些模型的幻觉率也出现了增长现象.当启用A模型和B模型的检索增强生成(RAG)功能时,显著提升了问题解答的召回率并降低了幻觉率(P＜0.05).结论:通义千问大语言模型所采用的方法或特性在提高答案准确性和减少不实信息方面显示出显著优势,在前牙美学修复问题解决上展现了更高的可信性.应用GoT虽能提升部分模型的正确率,也可能导致幻觉率上升.RAG策略能提高大语言模型的正确率,减少不实输出,增强模型在前牙美学修复领域的可靠性和实用性.