大语言模型在检验医学领域的应用潜力与挑战评估

Evaluation of the Application Potential and Challenges of Large Language Models in the Field of Laboratory Medicine

二维码有效期 120s

摘要目的评估ChatGPT-4.0、ERNIE Bot-4.0在检验医学领域的应用表现,探讨其在专业领域内的应用潜力及面临的挑战.方法以全国临床医学检验技术(中级)考试真题作为基准,对比2个模型在检验医学知识掌握和答题一致性方面的表现;通过30个检验医学病例评估模型在检验结果解读和辅助诊断方面的能力.结果在临床医学检验技术测试中,2个模型均通过了 60％的合格线.ChatGPT-4.0在答题速度和一致性方面优于ERNIE Bot-4.0,但在答题正确率上明显低于ERNIE Bot-4.0(73.25％vs 80.75％),且ERNIE Bot-4.0正确率高于临床检验人员此项考试的平均正确率78.03％.不同题型正确率分析方面,ERNIE Bot-4.0和ChatGPT-4.0均在实验技术题型中表现最差(66.32％和60.53％),在医学基础知识题型上表现最好,成绩都为86.00％.在病例分析测试中,ERNIE Bot-4.0的各项评分均高于ChatGPT-4.0,两者均在常规病例分析上表现良好,但在复杂病例分析中会发生错误.结论在检验医学领域,2个大语言模型都展现出了一定的应用潜力,特别是在中文环境下,ERNIE Bot-4.0在答题正确率和病例分析能力方面显著优于ChatGPT-4.0,这显示了其在国内应用中的相对优势.不过,2个模型在实验技术知识、复杂病例的分析能力以及结果输出的准确性和一致性方面还有待提升.在现阶段,直接将这类通用型大语言模型应用于临床检验结果解读及辅助诊断仍存在一定风险,这为检验报告的解读提供了新的研究方向.

作者陆小琴 ^[1] 佳薇 ^[2] 武宇翔 ^[3] 武永康 ^[4] 学术成果认领

作者单位四川大学华西医院实验医学科,成都 610041;金堂县第一人民医院,成都 610400;雅安职业技术学院药学与检验学院,四川雅安 625000 ^[1] 四川大学华西医院实验医学科,成都 610041 ^[2] 海南医科大学,海口 571199 ^[3] 四川大学华西医院实验医学科,成都 610041;金堂县第一人民医院,成都 610400 ^[4]

关键词大语言模型医学检验人工智能结果解读病例分析 large language model medical laboratory artificial intelligence result interpretation case analysis

分类号 R446

栏目名称 调查研究

DOI 10.13602/j.cnki.jcls.2024.08.12

发布时间 2024-09-20

基金项目

四川省留学回国人员科技活动项目