首页 > 中国循证医学杂志 > 大语言模型在分析性研究偏倚风险评估中的准确性评价

大语言模型在分析性研究偏倚风险评估中的准确性评价

Evaluation of the accuracy of the large language model for risk of bias assessment in analytical studies

导出原文传递学术成果认领

摘要目的评价大语言模型(LLM)评估分析性研究偏倚风险的准确性和一致性.方法基于团队已发表的系统评价中纳入的队列和病例-对照研究文献,分别由研究人员和基于LLM的BiasBee模型(version Non-RCT)评价偏倚风险,采用Kappa统计量和评分差异分析LLM与研究人员的评分一致性,并针对中、英文文献进行亚组分析.结果共纳入210篇文献.评分差异分析结果显示LLM对大多数指标的评分高于研究人员,暴露队列代表性(△=0.764)和外部对照选择(△=0.109)尤为明显.Kappa分析结果显示LLM和研究人员对暴露测定(κ=0.059)和随访充分性(κ=0.093)的评价结果表现出轻微一致性,而在对照选择(κ=-0.112)和无应答率(κ=-0.115)等主观性较强的指标差异显著.亚组分析显示,LLM对英文文献的评分一致性高于中文文献.结论 LLM具有评估文献偏倚风险的应用潜力,但对主观性较强的评价指标与人工评价结果存在明显差异.因此在未进行针对特定任务的培训的前提下,LLM尚无法取代人工评估分析性研究偏倚风险.