摘要近年来,随着深度学习、大数据分析等数字化技术的出现,为孤独症的筛查、诊断和干预开辟了新的路径,孤独症儿童的情绪识别与智能检测成为当前研究的热点方向。研究发现,当前孤独症儿童的情绪识别研究主要存在两点问题:第一,缺少自然状态下多种模态融合的孤独症儿童情绪数据集;第二,孤独症儿童情绪识别模型的准确率仍有提升空间。因此,构建自然状态下多种模态数据融合的情绪数据集,利用深度学习领域的最新技术进一步提高孤独症儿童情绪识别的准确度,助力数字疗法实效落地尤为重要。<br> 鉴于此,本研究开展了基于表情和语音模态特征融合的孤独症儿童情绪识别深度学习模型构建研究,具体包括以下四个方面:(1)采用文献研究法,系统分析国内外情绪识别的相关理论、国内外情绪识别研究现状、孤独症儿童情绪识别研究现状、深度学习方法、多模态融合理论基础、深度模型可解释性算法,确定本研究的立足点和研究思路。(2)基于情绪建模模型和教师对孤独症儿童的行为观察,确定孤独症儿童常见的四种情绪:平静、开心、伤心、生气;借助摄录像设备,拍摄自然状态下孤独症儿童的面部表情模态和语音模态数据,使用人脸裁取、分帧、傅里叶变换等数据处理技术,构建本土化孤独症儿童表情和语音情绪数据集。(3)设计深度学习模型总体框架,构建适合不同数据集的神经网络模型,包括ViT模型、CvT模型、Bi-LSTM模型、多模态特征融合模型。(4)基于表情和语音情绪数据集开展模型训练,具体包括:基于面部表情图像数据集训练ViT模型和CvT模型、基于Mel频谱图像数据集训练CvT模型、基于MFCCs数据集训练Bi-LSTM模型、基于面部表情图像数据集和Mel频谱图像数据集训练多模态特征融合模型,并根据模型训练结果对情绪识别模型进行应用分析。<br> 基于以上四个方面研究,本研究取得了五个方面的研究结论:<br> (1)提出了孤独症儿童多模态情绪数据集“N*五步”建立范式,“N”指N种模态,“五步”指情绪特征描述、数据采集、数据处理、数据标注、数据集划分。<br> (2)构建了CvT神经网络模型,其核心思想是运用最新技术Transformer机制,在ViT神经网络模型的基础上融入卷积思想,提取图像的全局和局部特征。在面部表情图像数据集上获得79.12%的准确率,在Mel频谱图像数据集上获得83.47%的准确率。<br> (3)通过实验验证了Mel频谱图像比MFCCs能够表征更多的情绪特征,神经网络模型在训练过程中可以学习到更多的情绪特征。基于Mel频谱图像数据集训练的神经网络模型获得83.47%的准确率,基于MFCCs数据集训练的神经网络模型获得25.72%的准确率。<br> (4)构建了基于注意力机制的多模态特征融合神经网络模型,依据模型训练效果,择优选择出基于面部表情模态和语音模态数据的最佳情绪识别模型,并将其作为特征提取网络,开展模型训练,获得90.73%的准确率。<br> (5)分析了孤独症儿童表情和语音特征融合神经网络模型的应用场景,阐述了本研究训练得到的情绪识别模型与教育机器人、轻量级可穿戴设备结合的可行性,为后续模型应用与系统开发指明方向。<br> 本研究成果在理论层面丰富了孤独症儿童情绪智能感知理论研究,为智能感知技术在特殊教育领域的普及应用提供理论指导。在实践层面,首次尝试将Transformer神经网络框架应用到孤独症儿童情绪识别领域,验证Transformer框架相较于卷积神经网络的有效性;同时,构建孤独症儿童自然情境下的多模态情绪数据集,为开展孤独症儿童康复治疗数字化、智能化提供数据基础。在社会层面能够赋能孤独症儿童数字疗法,提高干预训练治愈率。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文