首页 > 诊断病理学杂志 > 大模型与小模型在胃癌筛查真实世界中的性能对比

大模型与小模型在胃癌筛查真实世界中的性能对比

Performance comparison of large and small models in real-world gastric cancer screening:an in-depth analysis of false positives and gray-zone cases

二维码有效期 120s

摘要目的拟对比同一医院胃癌AI小模型与大模型在真实病理诊断世界中的性能漂移,并评估大模型对小模型的假阳性及灰区病例的修正价值.方法收集中日友好医院2023年9月1日至11月30日(小模型,n=1 455)及2025年4月1日至6月30日(大模型,n=8 296)的胃镜活检及ESD切片,以最终病理诊断报告作为金标准.模型切片级预测概率＜0.8为阴性,0.8～0.94为灰区,≥0.94为阳性;评价指标包括准确率、敏感性、特异性、PPV、NPV、灰区占比和恶性富集度.另从小模型结果中随机抽取37例(假阳性4例、灰区33例)回代大模型进行配对验证,并用McNemar检验比较差异.结果 (1)将灰区并入阳性:大模型准确率、特异性、PPV分别为99.87%、99.87%、87.91%,较小模型分别提升3.86%、3.91%、61.33%(均P＜0.001);敏感性、NPV均为100%,两组无差异.(2)剔除灰区:大模型准确率99.96%、特异性99.96%、PPV 95.71%,仍优于小模型(P＜0.05).(3)灰区占比:大模型0.25%,较小模型3.85%(P＜0.001);灰区恶性比例由8.9%升至61.9%(P＜0.001).(4)交叉验证:大模型将4例假阳性全部纠正,32/33例灰区重分类为阴性,整体修正率97.3%,无新增假阳性或漏诊(P＜0.001).而小模型将大模型预测的假阳性3例、灰区3例均预测为阳性,且假阳性区明显大于大模型.结论 4亿参数大模型在保持100%敏感性的同时,显著降低假阳性及灰区占比,并实现对真正可疑病灶的高效富集,优于器官专属小模型,可推广至胃部早癌规模化筛查.