首页 > 心理学报 > 多模态大语言模型动态社会互动情景下的情感能力测评

多模态大语言模型动态社会互动情景下的情感能力测评

Emotional capabilities evaluation of multimodal large language model in dynamic social interaction scenarios

二维码有效期 120s

摘要多模态大语言模型(MLLMs)能够处理并整合图像、文本等多模态数据信息,为理解人类心理与认知行为提供了强有力工具.结合经典的情绪心理学范式,本研究通过比较两种主流MLLMs与人类被试在动态社会互动情景下情绪识别与情绪推理的表现,分离出人物对话视觉特征(图像)和对话内容(文本)在识别与推理相关人物情绪中的不同作用.结果表明,基于人物对话图像和对话内容的MLLMs已经初步展现出和人类被试类似的情绪识别与情绪推理能力.之后进一步比较仅基于人物对话图像、仅基于对话内容以及基于两者结合共三种条件下MLLMs的情绪识别与情绪推理表现,发现人物对话视觉特征一定程度上制约MLLMs基本情绪识别的表现,但能够有效促进复合情绪识别,对情绪推理则未产生显著影响.通过对比两种主流MLLMs及其不同版本(GPT-4-vision/turbo vs.Claude-3-haiku)的表现,发现相较于单纯扩大训练数据规模,技术原理框架的创新对提升MLLMs在社会互动中情绪识别与推理能力更为重要.本研究结果对理解社会互动中情绪识别与推理的心理学机制、启发类人的情感计算与智能算法具有重要科学价值和意义.

作者周子森 ^[1] 黄琪 ^[1] 谭泽宏 ^[2] 刘睿 ^[3] 曹子亨 ^[4] 母芳蔓 ^[5] 樊亚春 ^[2] 秦绍正 ^[1] 学术成果认领

作者单位北京师范大学认知神经科学与学习国家重点实验室 ^[1] 北京师范大学人工智能学院,北京 100875 ^[2] 内蒙古财经大学工商管理学院,呼和浩特 010070 ^[3] 阿里巴巴集团,杭州 310020 ^[4] 楚雄师范学院数学与计算机科学学院,云南楚雄 675000 ^[5]

关键词多模态大语言模型社会互动情绪识别情绪推理 multimodal large language model social interaction emotion recognition emotion prediction

分类号 B842

栏目名称

人工智能心理与治理专刊

DOI 10.3724/SP.J.1041.2025.1988

发布时间 2025-11-17（万方平台首次上网日期，不代表论文的发表时间）

基金项目

国家自然科学基金（32130045）；组织间合作项目（32361163611）