GPT-4模型在影像学检查方法选择合理性评价中的初步分析
Preliminary analysis of the value of GPT-4 in appropriate medical imaging
摘要目的:评估第四代生成式预训练变换(GPT-4)模型在基于循证医学的影像学检查临床适用性评价(EB-MICA ?)中的应用价值。 方法:基于已发表的概念综述和《耳鸣患者影像学检查临床适用性评价共识(2022年版)》,共设计44个问题,包括EB-MICA ?相关通用型问题,以及耳鸣影像学合理检查推荐、不同影像学检查方法价值评判等耳科影像学检查相关专业问题。利用GPT-4模型输入问题并记录相应生成答案,影像专业人员从整体质量、准确性、专业性、语言流畅性四个方面评估生成答案。 结果:GPT-4模型生成答案的整体质量得分率为58.2%(128/220),准确性和专业性得分率分别为57.3%(126/220)、58.6%(129/220),语言流畅性得分率为100.0%(220/220)。在EB-MICA ?相关通用型问题回答方面,生成答案的整体质量、准确性、专业性得分率均为93.3%(14/15)。然而,在耳科影像学检查相关专业问题回答方面效果欠佳,合理检查推荐和不同影像学检查价值评判相关生成答案的整体质量得分率仅分别为50.0%(10/20)、56.2%(104/185),关键在于模型不能明确不同影像学检查选择的优先级,通常难以作出影像学合理检查的推荐,未能准确评判不同检查的临床应用价值。 结论:GPT-4模型的生成答案条理性很强,语言流畅性方面表现卓越,在通用型知识领域的生成答案具有积极的参考意义,但在耳科影像学检查相关专业领域的应用存在明显局限性。
更多相关知识
- 浏览9
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文