首页 > 上海医学 > 基于肺癌专用大语言模型构建标准化数据库的效能评估

基于肺癌专用大语言模型构建标准化数据库的效能评估

Efficacy of a standardized database built with a lung cancer-specific large language model

二维码有效期 120s

摘要目的探讨基于肺癌专用大语言模型的肺癌辅助诊断系统在普通肺癌患者和新辅助治疗后肺癌患者的病理报告数据标准化录入中的应用价值.方法筛选2024年1-12月上海市胸科医院肿瘤外科收治的手术治疗肺癌患者.采用简单随机抽样法,分别从医院电子病历系统中提取符合纳排标准的普通肺癌与新辅助治疗后肺癌患者的病理报告,各自形成独立队列.分别从两个队列中等概率抽取100份报告,最终共纳入200份病理报告进行分析.医师输入病理报告至基于开源大型语言模型Qwen2.5-72B开发的肺癌专用大型语言模型中,经模型解析后输出结构化数据.将模型生成的结果(纳入模型组)与1位主治医师生成的结果(纳入医务人员组)进行对比.根据病理报告的复杂程度将样本分为:复杂病理报告组(新辅助治疗后肺癌患者病理报告)与普通病理报告组(普通肺癌患者病理报告).肺癌专用大语言模型和医务人员生成的结果均由专属评分小组审核.评分内容涵盖4项指标:分析字段得分率、提取字段得分率、病理分期得分率和总得分率.每个指标的评分遵循4级标准:完整(1分,即结果完全正确)、不完整(0.5分,适用于应填写多个结果但存在遗漏)、错误(0分,指填写内容不正确)和缺失(0分,指未填写任何内容).结果在复杂病理报告分析中,模型组的分析字段得分率、提取字段得分率,以及总得分率均显著低于医务人员组(P值均＜0.05),但其病理分期得分率显著高于医务人员组(P＜0.001).而在普通病理报告分析中,模型组的分析字段得分率和病理分期得分率均显著高于医务人员组(P值均＜0.001),但其提取字段得分率显著低于医务人员组(P＜0.001),两组在总得分率方面的差异无统计学意义(P=0.726).在肺癌专用大语言模型录入的数据中,基于复杂病理报告组生成的标准化数据库中的提取字段得分率显著低于基于普通病理报告组(P＜0.001),而其总得分率显著高于基于普通病理报告组(P＜0.001),但两组在分析字段得分率和病理分期得分率方面的差异无统计学意义(P值均＞0.05).在医务人员录入的数据中,基于复杂病理报告组生成的标准化数据库中的病理分期得分率显著高于基于普通病理报告组(P＜0.001),而两组在分析字段得分率、提取字段得分率和总得分率方面的差异均无统计学意义(P值均＞0.05).结论肺癌专用大语言模型可精准实现病理报告的结构化录入,其在普通病理报告处理中的效能可比人工,且病理分期准确率更优,而针对复杂病理报告,其信息提取能力尚待优化.该模型是提升临床数据录入效率与质量的潜在辅助工具.