医学文献 >>
  • 检索发现
  • 增强检索
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
默认
×
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

人工智能的认知偏差:大语言模型对框架效应与确认偏误的易感性

Cognitive Biases in Artificial Intelligence:Susceptibility of a Large Language Model to Framing Effect and Confirmation Bias

摘要随着人工智能(AI)技术和大语言模型(LLMs)的飞速发展,其在文本生成、翻译、问答等诸多领域展现出惊人的能力.LLMs不仅提升了人类的能力,也在心理学领域革新了研究方法、技术和范式,促进了对人类认知模式的探索,推动了该领域的进步.然而,一个亟待解决的关键问题浮出水面:这些旨在模仿甚至超越人类智能的模型,是否也像人类一样容易受到认知偏差的影响?理解人工智能模型是否存在类似的认知偏差,对于评估其可靠性、改进其性能以及预测其潜在的社会影响至关重要.认知偏差是源于启发式和信息处理局限性而导致系统性偏离理性判断的现象,它们可以扭曲我们对现实的感知,从而导致次优决策.如果这些偏差也出现在AI系统中,将对其可靠性和安全性产生深远影响.研究旨在深入探究谷歌Gemini 1.5 Pro和DeepSeek这两款大语言模型对框架效应和确认偏误的易感性.框架效应是指人们对相同信息的不同表述方式做出不同反应的现象,而确认偏误则考察模型在处理信息时是否存在系统性偏好.对于LLMs等AI系统而言,这种偏见可能源于训练数据的偏差或算法的优先排序,从而可能导致预测结果的偏差,加剧社会偏见,并损害信息公平性和多样性.为评估模型是否存在这两类认知偏差,研究系统地操控了信息的比例和呈现顺序,揭示LLMs是否继承了人类的认知脆弱性,并探讨其潜在的伦理和社会影响.在框架效应实验中,研究构建了基因检测的决策场景.实验通过控制积极信息和消极信息的比例(例如20%积极/80%消极;50%积极/50%消极;80%积极/20%消极),并变换信息呈现的先后顺序,来记录模型对是否进行基因检测的倾向.这种设计旨在评估信息呈现方式(即"框架")的系统性变化是否会引发Gemini表达倾向的相应转变.每次试验都在一个新的、独立的交互会话中进行,以确保没有来自先前试验的结转效应或上下文学习.在确认偏误实验中,研究提供了关于"萝卜快跑"自动驾驶汽车的积极性和消极性两篇报道.实验系统改变了报道中错误信息的比例(10%,30%和50%),并同样测试了不同信息呈现顺序下模型对报道的支持倾向.本研究通过强制选择任务中模型的系统性偏好对确认偏误进行操作性定义,通过统计学显著的更高选择率来量化这种偏误.与框架效应场景一样,确认偏误实验的每次试验都在一个新的、独立的交互会话中进行,以防止先前交互的上下文影响.研究结果表明,Gemini 1.5 Pro和DeepSeek均表现出对框架效应的易感性.具体而言,在基因检测场景下,两者的决策态度主要受到所呈现积极信息和消极信息比例的影响.当积极信息占比较高时,模型更倾向于选择进行基因检测.反之,当消极信息占比较高时,则更倾向于不进行或持谨慎态度.而信息呈现的先后顺序对框架效应的实验结果没有显著影响.这些结果表明,Gemini和DeepSeek都表现出框架效应,其决策与积极信息的比例呈正相关.在确认偏误的实验中,Gemini 1.5 Pro并未表现出对积极或消极报道的整体偏好.在300个响应中,Gemini支持积极报道150次,支持消极报道150次,这种平衡的结果表明Gemini可能不具备始终偏爱积极或消极信息的内在确认偏误.然而,其判断更多地受到信息呈现顺序的显著影响,表现出"近因效应",即更倾向于支持后呈现的报道.因此,尽管Gemini可能没有表现出对其偏好积极或消极内容的整体确认偏误,但其决策受到信息顺序的显著影响,而错误信息的比例对其影响不显著.简单效应分析也证实,无论积极或消极报道先呈现,错误信息的比例变化对Gemini对RoboTaxi的态度均无显著影响(所有ps>.05).DeepSeek在确认偏误实验中则表现出对正面报道的整体偏好,其支持正面报道的比例显著更高.二项检验显示,DeepSeek在其所有响应中,有75%支持积极报道(p<.001).这一发现表明DeepSeek表现出确认偏误,并且明显更倾向于支持积极报道.尽管如此,DeepSeek的决策同样也受到了信息呈现顺序的显著影响.即当先呈现积极报道后呈现消极报道时,DeepSeek支持消极报道的频率会更高,错误信息比例则无显著影响(F(5,594)=.610,p>.05).这表明报道中错误信息的总体水平并未实质性影响DeepSeek的态度.此外,Gemini和DeepSeek都表现出一定识别错误信息并保持怀疑的能力.它们可以呈现论证的两面性,甚至在形成意见后,表达保留意见,暗示需要"进一步观察和理解实际情况".这些发现揭示了先进大语言模型中存在类似人类的认知脆弱性,对人工智能在决策过程中的可靠性和客观性提出了严峻挑战.这也提示在开发和应用人工智能时,需更加审慎地评估其潜在的认知偏误,并采取有效措施以避免可能带来的负面社会影响.本研究作为对特定前沿模型(Gemini 1.5 Pro,DeepSeek)在特定发展阶段的探索,其结论在推广至所有LLMs及模型的未来版本时需持谨慎态度.同时,将人类认知范式应用于机制根本不同的AI,虽具启发性,也凸显了开发针对AI认知特性的新研究框架的必要性.

更多
广告
  • 浏览3
  • 下载2
心理科学

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

法律状态公告日 法律状态 法律状态信息

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new医文AI 翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷