多模态大语言模型动态社会互动情景下的情感能力测评
Emotional capabilities evaluation of multimodal large language model in dynamic social interaction scenarios
摘要多模态大语言模型(MLLMs)能够处理并整合图像、文本等多模态数据信息,为理解人类心理与认知行为提供了强有力工具.结合经典的情绪心理学范式,本研究通过比较两种主流MLLMs与人类被试在动态社会互动情景下情绪识别与情绪推理的表现,分离出人物对话视觉特征(图像)和对话内容(文本)在识别与推理相关人物情绪中的不同作用.结果表明,基于人物对话图像和对话内容的MLLMs已经初步展现出和人类被试类似的情绪识别与情绪推理能力.之后进一步比较仅基于人物对话图像、仅基于对话内容以及基于两者结合共三种条件下MLLMs的情绪识别与情绪推理表现,发现人物对话视觉特征一定程度上制约MLLMs基本情绪识别的表现,但能够有效促进复合情绪识别,对情绪推理则未产生显著影响.通过对比两种主流MLLMs及其不同版本(GPT-4-vision/turbo vs.Claude-3-haiku)的表现,发现相较于单纯扩大训练数据规模,技术原理框架的创新对提升MLLMs在社会互动中情绪识别与推理能力更为重要.本研究结果对理解社会互动中情绪识别与推理的心理学机制、启发类人的情感计算与智能算法具有重要科学价值和意义.
更多相关知识
- 浏览0
- 被引0
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



