第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0:10.11992tis.202001032 多模态情绪识别研究综述 潘家辉,何志鹏',李自娜2,梁艳,邱丽娜 (1.华南师范大学软件学院,广东佛山528225,2.华南师范大学计算机学院,广东广州510641) 摘要:本文针对多模态情绪识别这一新兴领域进行综述。首先从情绪描述模型及情绪诱发方式两个方面对 情绪识别的研究基础进行了综述。接着针对多模态情绪识别中的信息融合这一重难点问题,从数据级融合、特 征级融合、决策级融合、模型级融合4种融合层次下的主流高效信息融合策略进行了介绍。然后从多种行为表 现模态混合、多神经生理模态混合、神经生理与行为表现模态混合这3个角度分别列举具有代表性的多模态混 合实例,全面合理地论证了多模态相较于单模态更具情绪区分能力和情绪表征能力,同时对多模态情绪识别方 法转为工程技术应用提出了一些思考。最后立足于情绪识别研究现状的分析和把握,对改善和提升情绪识别 模型性能的方式和策略进行了深入的探讨与展望。 关键词:情绪识别:情绪描述模型:情绪诱发方式:信息融合:融合策略:情绪表征:模态混合 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2020)04-0633-13 中文引用格式:潘家辉,何志鹏,李自娜,等.多模态情绪识别研究综述.智能系统学报,2020,15(4):633-645. 英文引用格式:PAN Jiahui,,HE Zhipeng,LI Zina,et aL.A review of multimodal emotion recognition Jl.CAAI transactions on in- telligent systems,2020,15(4):633-645. A review of multimodal emotion recognition PAN Jiahui',HE Zhipeng',LI Zina',LIANG Yan',QIU Lina' (1.School of Software,South China Normal University,Foshan 528225,China;2.School of Computer,South China Normal Uni- versity,Guangzhou 510641,China) Abstract:This paper reviews the emerging field of multimodal emotion recognition.Firstly,the research foundation of emotion recognition is summarized from two aspects:emotion description model and emotion-inducing mode.Then, aiming at the key and difficult problem of information fusion in multi-modal emotion recognition,some mainstream and high-efficiency information fusion strategies are introduced from four fusion levels:data-level fusion,feature-level fu- sion,decision-level fusion,and model-level fusion.By exemplifying representative multi-modal mixing examples from three perspectives:the mixing of multiple external presentation modalities,the mixing of multiple neurophysiological modalities,and the mixing of neurophysiology and external presentation modalities,it fully demonstrates that multi- modality is more capable of emotional discrimination and emotional representation than single-modality.At the same time,some thoughts on the conversion of multi-modal recognition methods to engineering technology applications are put forward.Finally,based on the analysis and grasp of the current situation of emotion recognition research,the ways and strategies for improving and enhancing the performance of the emotion recognition models are discussed and pro- spected. Keywords:emotion recognition;emotion description model;emotion inducing mode;information fusion;fusion strategy;emotion representation;modality blend 收稿日期:2020-01-30. 1相关研究 基金项目:国家自然科学基金面上项目(61876067):广东省自 然科学基金面上项目(2019A1515011375):广州市科 1.1背景与研究意义 技计划项目重点领域研发计划项目(202007030005). 通信作者:潘家辉,E-mail:panjh82@qq.com 情绪,是一系列主观认知经验的高度概括,由
DOI: 10.11992/tis.202001032 多模态情绪识别研究综述 潘家辉1 ,何志鹏1 ,李自娜2 ,梁艳1 ,邱丽娜1 (1. 华南师范大学 软件学院,广东 佛山 528225; 2. 华南师范大学 计算机学院,广东 广州 510641) 摘 要:本文针对多模态情绪识别这一新兴领域进行综述。首先从情绪描述模型及情绪诱发方式两个方面对 情绪识别的研究基础进行了综述。接着针对多模态情绪识别中的信息融合这一重难点问题,从数据级融合、特 征级融合、决策级融合、模型级融合 4 种融合层次下的主流高效信息融合策略进行了介绍。然后从多种行为表 现模态混合、多神经生理模态混合、神经生理与行为表现模态混合这 3 个角度分别列举具有代表性的多模态混 合实例,全面合理地论证了多模态相较于单模态更具情绪区分能力和情绪表征能力,同时对多模态情绪识别方 法转为工程技术应用提出了一些思考。最后立足于情绪识别研究现状的分析和把握,对改善和提升情绪识别 模型性能的方式和策略进行了深入的探讨与展望。 关键词:情绪识别;情绪描述模型;情绪诱发方式;信息融合;融合策略;情绪表征;模态混合 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2020)04−0633−13 中文引用格式:潘家辉, 何志鹏, 李自娜, 等. 多模态情绪识别研究综述 [J]. 智能系统学报, 2020, 15(4): 633–645. 英文引用格式:PAN Jiahui, HE Zhipeng, LI Zina, et al. A review of multimodal emotion recognition[J]. CAAI transactions on intelligent systems, 2020, 15(4): 633–645. A review of multimodal emotion recognition PAN Jiahui1 ,HE Zhipeng1 ,LI Zina2 ,LIANG Yan1 ,QIU Lina1 (1. School of Software, South China Normal University, Foshan 528225, China; 2. School of Computer, South China Normal University, Guangzhou 510641, China) Abstract: This paper reviews the emerging field of multimodal emotion recognition. Firstly, the research foundation of emotion recognition is summarized from two aspects: emotion description model and emotion-inducing mode. Then, aiming at the key and difficult problem of information fusion in multi-modal emotion recognition, some mainstream and high-efficiency information fusion strategies are introduced from four fusion levels: data-level fusion, feature-level fusion, decision-level fusion, and model-level fusion. By exemplifying representative multi-modal mixing examples from three perspectives: the mixing of multiple external presentation modalities, the mixing of multiple neurophysiological modalities, and the mixing of neurophysiology and external presentation modalities, it fully demonstrates that multimodality is more capable of emotional discrimination and emotional representation than single-modality. At the same time, some thoughts on the conversion of multi-modal recognition methods to engineering technology applications are put forward. Finally, based on the analysis and grasp of the current situation of emotion recognition research, the ways and strategies for improving and enhancing the performance of the emotion recognition models are discussed and prospected. Keywords: emotion recognition; emotion description model; emotion inducing mode; information fusion; fusion strategy; emotion representation; modality blend 1 相关研究 1.1 背景与研究意义 情绪,是一系列主观认知经验的高度概括,由 收稿日期:2020−01−30. 基金项目:国家自然科学基金面上项目 (61876067);广东省自 然科学基金面上项目 (2019A1515011375);广州市科 技计划项目重点领域研发计划项目 (202007030005). 通信作者:潘家辉,E-mail:panjh82@qq.com. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
·634· 智能系统学报 第15卷 多种感觉、思想和行为等产生的生理心理状态。 兰州大学普适感知与智能系统团队主要研究 人们在交流过程中无时无刻不传递着大量的情绪 基于人体生理信号和眼动、表情等行为表现模态 信息。从认知神经科学角度来看,情绪也属于经 的多模态知识建模及应用。通过对生理信号等 典认知的一种。情绪在人与人之间的沟通中意义 模态,组织与建模,研究适用于不同人群(抑郁症 重大,而在人机交互中,情绪识别是实现人性化 患者、心理高压患者)的模型,为准确、客观、实时 必不可少的部分。 地监控异常情感与心理状态变化。东南大学情感 1995年,Picard等四提出了“情感计算”,情感 信息处理团队开展了基于脑电、表情、语音、肢体 计算要赋予计算机像人一样的观察理解和生成情 动作等模态的情绪分析研究516,在情感分析的 感特征的能力,最终使得计算机像人一样进行自 基础探究和实践应用都取得了一定的成果。 然亲近和生动交互。情感计算逐渐演变成高级人 基于神经生理信号的情绪识别的研究方面, 机交互的关键技术,而情感计算的子领域情绪识 上海交通大学吕宝粮教授团队建立了公开情绪数 别更是人工智能领域中日益受到重点关注的研究 据集SEED叨,并且在情绪最相关的信号频段和脑 方向。 区、脑电的时间稳定性等基础研究方面做了不少 情绪识别应用领域非常广阔,涉及日常生活 相关的探索1。另外,中国科学院自动化研究 的方方面面。在医学领域),情绪识别能为精神 所何晖光研究团队02训和西南大学刘光远教授团 疾病的诊断治疗提供依据。比如在意识障碍的诊 队22]都对生理信号的情绪识别进行了较为深入 断上,利用标准的行为量表不容易检测患者的意 的研究。 识状态,而计算机辅助评估意识障碍患者的情绪 2情绪模型描述 能帮助医生更好地做出诊断和治疗;在远程教育 领域],学生佩戴具有情绪识别功能的便携设 情绪识别本质上是挖掘出有关情绪的特征数 备,以便教师可以监控学生在远程授课过程中的 据与内在情绪状态的映射关系,如图1所示。情 情绪状态,从而调整授课的进度和方式。在交通 绪建模是指通过建立数学模型对情绪状态进行描 领域中6刃,对于那些需要高度集中注意力进行操 述,从科学角度对情绪状态进行分类甚至量化。 作的工作人员,例如宇航员、长途旅行客车司机、 情绪模型的建立对于情绪测量有重要的意义,通 飞行员等,他们的愤怒、焦虑、悲伤等负面情绪会 过它可以对情绪状态做出较为准确的评估。2003 严重影响他们的专注度,导致操作水平下降,造 年,Picard2就情绪建模描述进行了探讨。许多 成交通事故的发生⑧。及时检测这类人员的情绪 研究者提出了相应的情绪表征方法,依据表征方 状态是避免事故发生的一种有效手段。 式的不同,可划分为离散情绪模型、维度情绪模 1.2研究现状 型以及其他情绪模型,完整的描述如表1。 近年来,随着人工智能和便携无创人体传感 离散情绪模型指的是情绪由几种基本的离散 器技术的不断发展,多模态情绪识别已成为国内 的情绪构成,正如传统观念上的“喜怒哀乐”。Ek 外情感计算领域的研究热点。目前,多模态情绪 man等2认为情绪由悲伤、恐惧、厌恶、惊讶、高 识别的研究主要集中于以下几个层面,基于多种 兴和愤怒组成,这6种情绪通过一定的组合模式 外在行为表现模态、基于多种神经生理模态、基 可构成更为复杂的情绪类别。然而这种描述方 于神经生理状态和行为潜意识行为。我国在这些 式,无法科学地描述情绪的本质,也无法很好地 层面的情绪识别研究均取得了初步成果。 从计算的角度来分析情绪状态。 基于行为表现方面,中国地质大学吴敏教授 维度情绪模型是将情绪状态映射为某一空间 情感计算团队在基于语音情感、人脸表情等基于 上的点,不同的情绪状态依据不同维度分布在空 外在行为的多模态情绪识别方面开展了研究 间中的不同位置,位置间的距离反映了不同的情 并在此基础上对多维度情感意图理解、人机情感 绪状态间的差异。与离散情绪模型最大不同在 交互等领域也进行了较为深入的研究。中国人 于,维度情绪模型是连续的,具有表示情绪的范 民大学多媒体计算实验室融合了视听两种模态, 围广、能描述情绪的演变过程的优点。 采取条件注意融合策略进行连续维的情感预测研 美国心理学家Johnston使用一维的坐标轴表 究。同时着力于探索多种信道交互信息的有效 征情绪,其正半轴为快乐,负半轴为悲伤P。而二 替代、互补与干扰等融合机制,以实现人机交互 维情绪模型则是从极性和强度两个维度区分情 自然性。 绪,极性指情绪具有正情绪和负情绪之分,强度
多种感觉、思想和行为等产生的生理心理状态。 人们在交流过程中无时无刻不传递着大量的情绪 信息。从认知神经科学角度来看,情绪也属于经 典认知的一种。情绪在人与人之间的沟通中意义 重大,而在人机交互中,情绪识别是实现人性化 必不可少的部分。 1995 年,Picard 等 [1] 提出了“情感计算”,情感 计算要赋予计算机像人一样的观察理解和生成情 感特征的能力,最终使得计算机像人一样进行自 然亲近和生动交互。情感计算逐渐演变成高级人 机交互的关键技术,而情感计算的子领域情绪识 别更是人工智能领域中日益受到重点关注的研究 方向。 情绪识别应用领域非常广阔,涉及日常生活 的方方面面。在医学领域[2-3] ,情绪识别能为精神 疾病的诊断治疗提供依据。比如在意识障碍的诊 断上,利用标准的行为量表不容易检测患者的意 识状态,而计算机辅助评估意识障碍患者的情绪 能帮助医生更好地做出诊断和治疗;在远程教育 领域[4-5] ,学生佩戴具有情绪识别功能的便携设 备,以便教师可以监控学生在远程授课过程中的 情绪状态,从而调整授课的进度和方式。在交通 领域中[6-7] ,对于那些需要高度集中注意力进行操 作的工作人员,例如宇航员、长途旅行客车司机、 飞行员等,他们的愤怒、焦虑、悲伤等负面情绪会 严重影响他们的专注度,导致操作水平下降,造 成交通事故的发生[8]。及时检测这类人员的情绪 状态是避免事故发生的一种有效手段。 1.2 研究现状 近年来,随着人工智能和便携无创人体传感 器技术的不断发展,多模态情绪识别已成为国内 外情感计算领域的研究热点。目前,多模态情绪 识别的研究主要集中于以下几个层面,基于多种 外在行为表现模态、基于多种神经生理模态、基 于神经生理状态和行为潜意识行为。我国在这些 层面的情绪识别研究均取得了初步成果。 基于行为表现方面,中国地质大学吴敏教授 情感计算团队在基于语音情感、人脸表情等基于 外在行为的多模态情绪识别方面开展了研究[9-10] , 并在此基础上对多维度情感意图理解、人机情感 交互等领域也进行了较为深入的研究[11]。中国人 民大学多媒体计算实验室融合了视听两种模态, 采取条件注意融合策略进行连续维的情感预测研 究 [12]。同时着力于探索多种信道交互信息的有效 替代、互补与干扰等融合机制,以实现人机交互 自然性[13]。 兰州大学普适感知与智能系统团队主要研究 基于人体生理信号和眼动、表情等行为表现模态 的多模态知识建模及应用[14]。通过对生理信号等 模态,组织与建模,研究适用于不同人群 (抑郁症 患者、心理高压患者) 的模型,为准确、客观、实时 地监控异常情感与心理状态变化。东南大学情感 信息处理团队开展了基于脑电、表情、语音、肢体 动作等模态的情绪分析研究[15-16] ,在情感分析的 基础探究和实践应用都取得了一定的成果。 基于神经生理信号的情绪识别的研究方面, 上海交通大学吕宝粮教授团队建立了公开情绪数 据集 SEED[17] ,并且在情绪最相关的信号频段和脑 区、脑电的时间稳定性等基础研究方面做了不少 相关的探索[18-19]。另外,中国科学院自动化研究 所何晖光研究团队[20-21] 和西南大学刘光远教授团 队 [22-23] 都对生理信号的情绪识别进行了较为深入 的研究。 2 情绪模型描述 情绪识别本质上是挖掘出有关情绪的特征数 据与内在情绪状态的映射关系,如图 1 所示。情 绪建模是指通过建立数学模型对情绪状态进行描 述,从科学角度对情绪状态进行分类甚至量化。 情绪模型的建立对于情绪测量有重要的意义,通 过它可以对情绪状态做出较为准确的评估。2003 年,Picard[24] 就情绪建模描述进行了探讨。许多 研究者提出了相应的情绪表征方法,依据表征方 式的不同,可划分为离散情绪模型、维度情绪模 型以及其他情绪模型,完整的描述如表 1。 离散情绪模型指的是情绪由几种基本的离散 的情绪构成,正如传统观念上的“喜怒哀乐”。Ekman 等 [25] 认为情绪由悲伤、恐惧、厌恶、惊讶、高 兴和愤怒组成,这 6 种情绪通过一定的组合模式 可构成更为复杂的情绪类别。然而这种描述方 式,无法科学地描述情绪的本质,也无法很好地 从计算的角度来分析情绪状态。 维度情绪模型是将情绪状态映射为某一空间 上的点,不同的情绪状态依据不同维度分布在空 间中的不同位置,位置间的距离反映了不同的情 绪状态间的差异。与离散情绪模型最大不同在 于,维度情绪模型是连续的,具有表示情绪的范 围广、能描述情绪的演变过程的优点[26]。 美国心理学家 Johnston 使用一维的坐标轴表 征情绪,其正半轴为快乐,负半轴为悲伤[27]。而二 维情绪模型则是从极性和强度两个维度区分情 绪,极性指情绪具有正情绪和负情绪之分,强度 ·634· 智 能 系 统 学 报 第 15 卷
第4期 潘家辉,等:多模态情绪识别研究综述 ·635· 指情绪具有强烈程度和微弱程度的区别。目前使 负半轴表示平缓的情绪,正半轴表示强烈的情 用最多的是1980年Russell2!8提出的效价-唤醒二 绪。在三维情绪模型方面,当前认可度比较高的 维情绪模型。该模型将情绪划分为两个维度,分 是Mehrabian2提出的高兴-唤醒-优势三维模 别为效价维度和唤醒维度。效价维度的负半轴表 型,该模型定义情绪具有愉悦度、唤醒度和优势 示消极情绪,正半轴表示积极情绪。唤醒维度的 度3个维度。 行为表现模态 神经生理模态 , O Pe 肢体动作 哈表情 语音信号 眼球运动 神经生理电信号呼吸心率信号 运动量 纹理特征 韵律特征 瞳孔直径 时域特征、 频带心率 肢体收缩 统计特征、 谱特征、 视线特征 频域特征 指数、 变换特征、 事件时间 时频域特征 变异性 声学特征 空间域特征 分析 运动速率 Haar矩形 特征 AAAAA 4.44 视听嗅觉等情绪刺激 分类器 情绪模型 图1情绪识别研究流程 Fig.1 Research process of emotion recognition 表1情绪描述模型 Table 1 Emotional description model 模型类别 情绪描述 提出者 基本内容 基本 悲伤、恐惧、高兴、厌恶、惊讶、愤怒 离散情绪 EkmanRs] 复合 Plutchik 复杂情绪由基本情绪的组合形成 一维 Johnston27 快乐一悲伤的正负两极 二维 Russel2 效价-唤醒 维度情绪 三维 Mehrabian 高兴-唤醒-优势 四维 Izard 愉快度-紧张度-激动度-确信度 Ortony-Clore-Collins Ortony Bo 事件结果-仿生动作-对象感观的情感层次关系 其他模型 隐马尔可夫情感 PicardBn 感兴趣-高兴-悲伤的环形情感状态转移模型 分布式 Kesteren2] 将特定的情感事件转换为相应的情绪状态 除此之外,许多心理学家和情绪研究学者 建立了分布式情感模型。 根据各自不同的分析角度,提出了不同于上述两 种模型的情绪描述模型。如Ortony等o在1988 3情绪诱发方式 年提出了Ortony-Clore-.Collins(OCC)模型, Picard在20o0年提出了隐马尔可夫模型(hidden 在进行情绪识别研究时,首要考虑的是如何 Markov model,,HMM)。同年,Kesteren等IB以情 才能有效地诱发被试者的情绪状态。目前的研究 绪时间类型为分类标准,并针对外界刺激事件而 中,情绪的诱发方式主要有两种,分别是主体诱
指情绪具有强烈程度和微弱程度的区别。目前使 用最多的是 1980 年 Russell[28] 提出的效价−唤醒二 维情绪模型。该模型将情绪划分为两个维度,分 别为效价维度和唤醒维度。效价维度的负半轴表 示消极情绪,正半轴表示积极情绪。唤醒维度的 负半轴表示平缓的情绪,正半轴表示强烈的情 绪。在三维情绪模型方面,当前认可度比较高的 是 Mehrabian[29] 提出的高兴−唤醒−优势三维模 型,该模型定义情绪具有愉悦度、唤醒度和优势 度 3 个维度。 频带心率 变异性 分析 神经生理模态 眼球运动 神经生理电信号 呼吸心率信号 时域特征、 频域特征、 时频域特征、 空间域特征 肢体动作 脸部表情 语音信号 行为表现模态 纹理特征、 统计特征、 变换特征、 Haar矩形 韵律特征、 谱特征、 声学特征 运动量、 肢体收缩 指数、 运动速率 瞳孔直径、 视线特征、 事件时间 特征 ... ... 情绪模型 视听嗅觉等情绪刺激 分类器 图 1 情绪识别研究流程 Fig. 1 Research process of emotion recognition 表 1 情绪描述模型 Table 1 Emotional description model 模型类别 情绪描述 提出者 基本内容 离散情绪 基本 Ekman[25] 悲伤、恐惧、高兴、厌恶、惊讶、愤怒 复合 Plutchik[33] 复杂情绪由基本情绪的组合形成 维度情绪 一维 Johnston[27] 快乐−悲伤的正负两极 二维 Russell[28] 效价−唤醒 三维 Mehrabian[29] 高兴−唤醒−优势 四维 Izard[34] 愉快度−紧张度−激动度−确信度 其他模型 Ortony-Clore-Collins Ortony[30] 事件结果−仿生动作−对象感观的情感层次关系 隐马尔可夫情感 Picard[31] 感兴趣−高兴−悲伤的环形情感状态转移模型 分布式 Kesteren[32] 将特定的情感事件转换为相应的情绪状态 除此之外,许多心理学家和情绪研究学者 根据各自不同的分析角度,提出了不同于上述两 种模型的情绪描述模型。如 Ortony 等 [30] 在 1988 年提出了 Ortony-Clore-Collins(OCC) 模型, Picard[31] 在 2000 年提出了隐马尔可夫模型 (hidden Markov model, HMM)。同年,Kesteren 等 [32] 以情 绪时间类型为分类标准,并针对外界刺激事件而 建立了分布式情感模型。 3 情绪诱发方式 在进行情绪识别研究时,首要考虑的是如何 才能有效地诱发被试者的情绪状态。目前的研究 中,情绪的诱发方式主要有两种,分别是主体诱 第 4 期 潘家辉,等:多模态情绪识别研究综述 ·635·
·636· 智能系统学报 第15卷 发和事件诱发。 6.60%),综合分析出多个信号及其相互依赖可以 主体诱发指借助回忆相关情绪的事件来产生 构建出更准确地反映人类情感表达潜在本质的模 相关的情绪,这是一个由被试者主动诱发目标情 型。与文献[44不同,Poria等在充分讨论了单 绪的方式。Zhuang等B设计了30名被试者在观 模态识别方法的现状基础上,根据实验的准确性 看每个电影片段(共18个片段)后,被试者被要求 对基于同一数据集的多模态融合情绪识别研究与 通过回忆每个电影中的特定场景来自我诱导6种 单模态情绪识别进行了横向比较,同样有力证明 离散情绪,包括喜悦、中立、悲伤、厌恶、愤怒和 了高效的模态融合能极大地提高情绪识别系统的 恐惧。lacoviello等B也做了类似的自诱发情绪 健壮性。利用不同类别的信号相互支持,对互补 的研究,该研究是对厌恶情绪和中立情绪进行二 信息进行融合处理,能够有效地提高最终的识别效 分类实验,被试者通过回忆一种不愉快的气味进 果6。根据目前已有的研究,模态融合的方式大 行自诱发情绪。主体诱发能充分反映被试者的主 致可分为4种,分别是数据级融合(传感层融合)、 观情感体验,但难以控制情绪诱发的时间且易受 特征级融合、决策级融合、模型层融合。 外界干扰。 4.1数据级融合 事件诱发是指使用不同情绪相关的刺激材料 数据级融合74,又称传感器层融合。数据 来诱发被试者的某一目标情绪状态,如图片、声 级融合是直接对各个传感器采集到的最原始的、 音、视频、气味等。镜像神经元理论B)表明当一 没有经过特殊处理的数据进行组合,从而构造一 个人观察另一个人的活动时,其脑部也在做类似 组新的数据,如图2。 的活动。事件诱发正是根据该原理设计诱发情绪 模态1 的方式。事件诱发能够更加高效地诱发被试者的 数据 目标情绪,因此其被广泛地用于设计诱发情绪方 模态2 融合 特征提取 分类器 式。事件诱发相对常用的刺激方式包括图片刺 数据 激、听觉刺激以及多媒体材料。当前公认的图片 模态n 情绪刺激材料有Lang等B)采集的国际情绪图 数据 片,听觉刺激材料库则有Bradley等B采集的国 图2数据级融合 际情绪数字化声音。 Fig.2 Data level fusion 而目前公开的多模态情绪数据集大多采用多 目前数据级融合处理的方法有数值处理、参 媒体材料来诱发情绪。其中采集了多种生理信号 数估计。具体为使用线性、非线性估计和统计运 的最具代表性数据集的就是DEAP数据集4o。 算方法对来自多个数据源的数据进行计算处理9。 DEAP数据集诱发方式要求32位被试者在观看 其优点是:可以很好地保留各个模态传感器上的 40段1min的音乐视频片段后填写自我情绪评定 数据信息,避免信息的丢失,保持信息的完整 量表(self-assessment manikin,.SAM)。收集了生理 性。但其缺点也是明显的,因为数据是在原始状 信号和行为表现的数据集有MAHNOB-HCI数据 态下进行融合,因此处理过程极为繁琐复杂。 集,是记录由情绪电影刺激产生神经生理信号 4.2特征级融合 和行为表现的多模态数据库。基于多种行为表现 特征级融合50s)是将多种模态数据经过提 模态的数据集有Martin等aa制作的视听数据集 取、构建成相应的模态特征之后,再拼接成一个 eNTERFACE'05,共有42位被试者,可以使用该 集成各个模态特征的特征集,如图3。 数据库作为测试和评估视频、音频或者视听情感 识别算法。 模态1 特征提取 数据 4 多模态融合策略 00 模态2 特征提毦 融合 分类器 在单模态情绪识别领域,单模态信息易受各 数据 种噪声的影响,难以完整地反映情绪状态。文 献[44]使用统计方法深入讨论单模态和多模态情 模态n 特征提取 绪识别精度。他们比较了不同算法在不同数据集 数据 上的准确性,85%多模态情绪识别系统比最佳单 图3特征级融合 模态对应系统更准确,平均提高9.83%(中位数为 Fig.3 Feature level fusion
发和事件诱发。 主体诱发指借助回忆相关情绪的事件来产生 相关的情绪,这是一个由被试者主动诱发目标情 绪的方式。Zhuang 等 [35] 设计了 30 名被试者在观 看每个电影片段 (共 18 个片段) 后,被试者被要求 通过回忆每个电影中的特定场景来自我诱导 6 种 离散情绪,包括喜悦、中立、悲伤、厌恶、愤怒和 恐惧。Iacoviello 等 [36] 也做了类似的自诱发情绪 的研究,该研究是对厌恶情绪和中立情绪进行二 分类实验,被试者通过回忆一种不愉快的气味进 行自诱发情绪。主体诱发能充分反映被试者的主 观情感体验,但难以控制情绪诱发的时间且易受 外界干扰。 事件诱发是指使用不同情绪相关的刺激材料 来诱发被试者的某一目标情绪状态,如图片、声 音、视频、气味等。镜像神经元理论[37] 表明当一 个人观察另一个人的活动时,其脑部也在做类似 的活动。事件诱发正是根据该原理设计诱发情绪 的方式。事件诱发能够更加高效地诱发被试者的 目标情绪,因此其被广泛地用于设计诱发情绪方 式。事件诱发相对常用的刺激方式包括图片刺 激、听觉刺激以及多媒体材料。当前公认的图片 情绪刺激材料有 Lang 等 [38] 采集的国际情绪图 片,听觉刺激材料库则有 Bradley 等 [39] 采集的国 际情绪数字化声音。 而目前公开的多模态情绪数据集大多采用多 媒体材料来诱发情绪。其中采集了多种生理信号 的最具代表性数据集的就是 DEAP 数据集[ 4 0 ]。 DEAP 数据集诱发方式要求 32 位被试者在观看 40 段 1 min 的音乐视频片段后填写自我情绪评定 量表 (self-assessment manikin,SAM)。收集了生理 信号和行为表现的数据集有 MAHNOB-HCI 数据 集 [41] ,是记录由情绪电影刺激产生神经生理信号 和行为表现的多模态数据库。基于多种行为表现 模态的数据集有 Martin 等 [42] 制作的视听数据集 eNTERFACE’05,共有 42 位被试者,可以使用该 数据库作为测试和评估视频、音频或者视听情感 识别算法。 4 多模态融合策略 在单模态情绪识别领域,单模态信息易受各 种噪声的影响,难以完整地反映情绪状态[43]。文 献 [44] 使用统计方法深入讨论单模态和多模态情 绪识别精度。他们比较了不同算法在不同数据集 上的准确性,85% 多模态情绪识别系统比最佳单 模态对应系统更准确,平均提高 9.83%(中位数为 6.60%),综合分析出多个信号及其相互依赖可以 构建出更准确地反映人类情感表达潜在本质的模 型。与文献 [44] 不同,Poria 等 [45] 在充分讨论了单 模态识别方法的现状基础上,根据实验的准确性 对基于同一数据集的多模态融合情绪识别研究与 单模态情绪识别进行了横向比较,同样有力证明 了高效的模态融合能极大地提高情绪识别系统的 健壮性。利用不同类别的信号相互支持,对互补 信息进行融合处理,能够有效地提高最终的识别效 果 [46]。根据目前已有的研究,模态融合的方式大 致可分为 4 种,分别是数据级融合 (传感层融合)、 特征级融合、决策级融合、模型层融合。 4.1 数据级融合 数据级融合[47-48] ,又称传感器层融合。数据 级融合是直接对各个传感器采集到的最原始的、 没有经过特殊处理的数据进行组合,从而构造一 组新的数据,如图 2。 融合 特征提取 分类器 … 模态 1 数据 模态 2 数据 模态 n 数据 图 2 数据级融合 Fig. 2 Data level fusion 目前数据级融合处理的方法有数值处理、参 数估计。具体为使用线性、非线性估计和统计运 算方法对来自多个数据源的数据进行计算处理[49]。 其优点是:可以很好地保留各个模态传感器上的 数据信息,避免信息的丟失,保持信息的完整 性。但其缺点也是明显的,因为数据是在原始状 态下进行融合,因此处理过程极为繁琐复杂。 4.2 特征级融合 特征级融合[50-51] 是将多种模态数据经过提 取、构建成相应的模态特征之后,再拼接成一个 集成各个模态特征的特征集,如图 3。 模态 1 数据 模态 2 数据 模态 n 数据 特征提取 融合 分类器 特征提取 特征提取 … … 图 3 特征级融合 Fig. 3 Feature level fusion ·636· 智 能 系 统 学 报 第 15 卷
第4期 潘家辉,等:多模态情绪识别研究综述 ·637· 在特征级层面,常用的融合策略是将经特征 推广理论(Dempster-Shafer理论6、动态贝叶斯网 提取后全部模态特征数据级联为特征向量后再送 络6、模糊积分6等。 入一个情感分类器。如Emerich等s例将长度归一 Huang等6同时使用枚举权重及adaboost两 化的语音情感特征和面部表情特征级联起来,构 种不同决策级融合策略来比较情绪识别效果,使 造一个特征向量。实验结果表明语音信息系统提 用面部表情分类器和脑电图分类器作为增强分类 取的特征包含有价值的情感特征,这些特征是无 器的子分类器,并分别应用于两个学习任务(效价 法从视觉信息中提取出来的。当这两种模式融合 和唤醒)。结果表明这两种方法都能给出最后的 时,情绪识别系统的性能和鲁棒性都得到了提 效价和唤醒结果,在公开数据集DEAP、MAHNOB- 高,但这种直接级联拼接的方式导致了新特征空 HCI以及在线应用均取得不错的效果。 间不完备,融合后维数过高,当特征维数达到一 基于统计规则和概率理论均依赖于所有分类 定规模后,模型的性能将会下降。为此,Yan等s) 器相互独立的假设,这与实际情况不符。因此, 提出了一种基于稀疏核降秩回归(sparse kernel re 预测结果在一定程度上是不准确的。Lu等6采 duced-rank regression,SKRRR)特征级融合策略, 用了一种称为模糊积分的融合策略。模糊积分是 SKRRR方法是传统降秩回归(RRR)方法的非线 关于模糊测度的实函数的积分。实验发现眼球运 性扩展,将预测量和响应特征向量分别通过两个 动特征和脑电图对情绪识别具有互补作用,模糊 非线性映射映射到两个高维特征空间中进行核 积分融合策略的最佳准确率为87.59%,相比于其 化。openSMILE特征提取器和SIFT描述子分别 他融合方式,模糊积分融合能显著提高情绪识别 从语音模态和面部表情模态中提取有效特征,然 的准确性。通常情况下,多种模态间的信息并非 后使用SKRRR融合方法融合两种模态的情感特 完全独立,决策级融合会丢失不同模态之间的相 征。而Mansoorizadeh等s提出了一种异步的特 关性,所以在实际应用环境下识别的结果未必会 征级融合方法,在单个信号测量之外创建一个统 比单模态识别的效果好。 的混合特征空间,他们使用提出的方法从语音 4.4模型级融合 韵律和面部表情来识别基本的情绪状态。结果表 模型级模态融合67681不依赖于以上3种融合 明,与基于单模态人脸和基于语音的系统相比 层次的体系结构。决策级融合关键在于找出不同 基于特征级融合的系统性能明显提高。 模态在决策阶段的可信程度,但模型级融合并不 当模态信息针对同一内容而又不互相包含 需要重点去探究各模态的重要程度,而是根据模 时,特征级融合方法虽然能最大限度地保留原始 态特性需要建立合适的模型,联合学习关联信 信息,在理论上能达到最佳的识别效果9但是其 息。特征级融合则主要先通过构建特征集合或混 没有考虑到不同模态情绪特征之间的差异性。 合特征空间,再送入到分类模型进行分类决策。 4.3决策级融合 模型级融合可以将不同模态特征分别输入到不同 决策级融合5s561是找出各个模态的可信度, 模型结构再进行进一步特征提取,如Zheng等W 再进行协调、联合决策,如图4。决策级融合与特 采用将堆叠的受限玻尔兹曼机展开成深度置信网 征级融合相比,更容易进行,但关键是要探究各 络,首先以手工提取出来的脑电和眼动特征分别 个模态对情绪识别的重要度。 作为两个玻尔兹曼机的输入并从神经网络中学习 模态1 两种模式的共享表示,实验结果表明,基于深度 数据 特征提取 分类器 神经网络的模型级融合能显著提高性能。总的来 说,模型级融合相较于决策级融合和特征级融合 模态2 数据 特征提取 分类器2 融合 最大的优势在于可以灵活地选择融合的位置。 目前的模型级融合主要采取的策略是通过构 模态n 建深度网络模型,建立多层结构,逐层学习可以 特征提取 分类器, 数据 学习到更加复杂的变换,从而可以拟合更加复杂 图4决策级融合 的特征,增加非线性表达能力。Zhang等6m提出 Fig.4 Decision level fusion 一种充分利用深度神经网络强大的特征学习能力 决策级所采用的融合策略有基于统计学规则阿 的混合深度学习模型,将视听数据经卷积神经网 (总和规则、乘积规则、最大最小/中位数规则等)、 (convolutional neural networks,CNN)3DCNN 枚举权重s8s9、自适应增强606,贝叶斯推论及其 (three dimensional convolutional neural networks)
在特征级层面,常用的融合策略是将经特征 提取后全部模态特征数据级联为特征向量后再送 入一个情感分类器。如 Emerich 等 [52] 将长度归一 化的语音情感特征和面部表情特征级联起来,构 造一个特征向量。实验结果表明语音信息系统提 取的特征包含有价值的情感特征,这些特征是无 法从视觉信息中提取出来的。当这两种模式融合 时,情绪识别系统的性能和鲁棒性都得到了提 高,但这种直接级联拼接的方式导致了新特征空 间不完备,融合后维数过高,当特征维数达到一 定规模后,模型的性能将会下降。为此,Yan 等 [53] 提出了一种基于稀疏核降秩回归 (sparse kernel reduced-rank regression,SKRRR) 特征级融合策略, SKRRR 方法是传统降秩回归 (RRR) 方法的非线 性扩展,将预测量和响应特征向量分别通过两个 非线性映射映射到两个高维特征空间中进行核 化。openSMILE 特征提取器和 SIFT 描述子分别 从语音模态和面部表情模态中提取有效特征,然 后使用 SKRRR 融合方法融合两种模态的情感特 征。而 Mansoorizadeh 等 [54] 提出了一种异步的特 征级融合方法,在单个信号测量之外创建一个统 一的混合特征空间,他们使用提出的方法从语音 韵律和面部表情来识别基本的情绪状态。结果表 明,与基于单模态人脸和基于语音的系统相比, 基于特征级融合的系统性能明显提高。 当模态信息针对同一内容而又不互相包含 时,特征级融合方法虽然能最大限度地保留原始 信息,在理论上能达到最佳的识别效果[49] ,但是其 没有考虑到不同模态情绪特征之间的差异性。 4.3 决策级融合 决策级融合[55-56] 是找出各个模态的可信度, 再进行协调、联合决策,如图 4。决策级融合与特 征级融合相比,更容易进行,但关键是要探究各 个模态对情绪识别的重要度。 模态 1 数据 模态 2 数据 模态 n 数据 特征提取 融合 特征提取 分类器 1 特征提取 分类器 2 分类器 n … … … 图 4 决策级融合 Fig. 4 Decision level fusion 决策级所采用的融合策略有基于统计学规则[57] (总和规则、乘积规则、最大/最小/中位数规则等)、 枚举权重[58-59] 、自适应增强[60-61] ,贝叶斯推论及其 推广理论 (Dempster-Shafer 理论[62] 、动态贝叶斯网 络 [63] )、模糊积分[64] 等。 Huang 等 [65] 同时使用枚举权重及 adaboost 两 种不同决策级融合策略来比较情绪识别效果,使 用面部表情分类器和脑电图分类器作为增强分类 器的子分类器,并分别应用于两个学习任务 (效价 和唤醒)。结果表明这两种方法都能给出最后的 效价和唤醒结果,在公开数据集 DEAP、MAHNOBHCI 以及在线应用均取得不错的效果。 基于统计规则和概率理论均依赖于所有分类 器相互独立的假设,这与实际情况不符。因此, 预测结果在一定程度上是不准确的。Lu 等 [66] 采 用了一种称为模糊积分的融合策略。模糊积分是 关于模糊测度的实函数的积分。实验发现眼球运 动特征和脑电图对情绪识别具有互补作用,模糊 积分融合策略的最佳准确率为 87.59%,相比于其 他融合方式,模糊积分融合能显著提高情绪识别 的准确性。通常情况下,多种模态间的信息并非 完全独立,决策级融合会丢失不同模态之间的相 关性,所以在实际应用环境下识别的结果未必会 比单模态识别的效果好。 4.4 模型级融合 模型级模态融合[67-68] 不依赖于以上 3 种融合 层次的体系结构。决策级融合关键在于找出不同 模态在决策阶段的可信程度,但模型级融合并不 需要重点去探究各模态的重要程度,而是根据模 态特性需要建立合适的模型,联合学习关联信 息。特征级融合则主要先通过构建特征集合或混 合特征空间,再送入到分类模型进行分类决策。 模型级融合可以将不同模态特征分别输入到不同 模型结构再进行进一步特征提取,如 Zheng 等 [17] 采用将堆叠的受限玻尔兹曼机展开成深度置信网 络,首先以手工提取出来的脑电和眼动特征分别 作为两个玻尔兹曼机的输入并从神经网络中学习 两种模式的共享表示,实验结果表明,基于深度 神经网络的模型级融合能显著提高性能。总的来 说,模型级融合相较于决策级融合和特征级融合 最大的优势在于可以灵活地选择融合的位置。 目前的模型级融合主要采取的策略是通过构 建深度网络模型,建立多层结构,逐层学习可以 学习到更加复杂的变换,从而可以拟合更加复杂 的特征,增加非线性表达能力。Zhang 等 [67] 提出 一种充分利用深度神经网络强大的特征学习能力 的混合深度学习模型,将视听数据经卷积神经网 络 (convolutional neural networks, CNN) 和 3DCNN (three dimensional convolutional neural networks) 产 第 4 期 潘家辉,等:多模态情绪识别研究综述 ·637·