大语言模型在检验医学领域的应用潜力与挑战评估
Evaluation of the Application Potential and Challenges of Large Language Models in the Field of Laboratory Medicine
摘要目的 评估ChatGPT-4.0、ERNIE Bot-4.0在检验医学领域的应用表现,探讨其在专业领域内的应用潜力及面临的挑战.方法 以全国临床医学检验技术(中级)考试真题作为基准,对比2个模型在检验医学知识掌握和答题一致性方面的表现;通过30个检验医学病例评估模型在检验结果解读和辅助诊断方面的能力.结果 在临床医学检验技术测试中,2个模型均通过了 60%的合格线.ChatGPT-4.0在答题速度和一致性方面优于ERNIE Bot-4.0,但在答题正确率上明显低于ERNIE Bot-4.0(73.25%vs 80.75%),且ERNIE Bot-4.0正确率高于临床检验人员此项考试的平均正确率78.03%.不同题型正确率分析方面,ERNIE Bot-4.0和ChatGPT-4.0均在实验技术题型中表现最差(66.32%和60.53%),在医学基础知识题型上表现最好,成绩都为86.00%.在病例分析测试中,ERNIE Bot-4.0的各项评分均高于ChatGPT-4.0,两者均在常规病例分析上表现良好,但在复杂病例分析中会发生错误.结论 在检验医学领域,2个大语言模型都展现出了一定的应用潜力,特别是在中文环境下,ERNIE Bot-4.0在答题正确率和病例分析能力方面显著优于ChatGPT-4.0,这显示了其在国内应用中的相对优势.不过,2个模型在实验技术知识、复杂病例的分析能力以及结果输出的准确性和一致性方面还有待提升.在现阶段,直接将这类通用型大语言模型应用于临床检验结果解读及辅助诊断仍存在一定风险,这为检验报告的解读提供了新的研究方向.
更多相关知识
- 浏览9
- 被引0
- 下载11

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文