第15卷第1期 智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0:10.11992/tis.201904065 语音情感识别研究综述 高庆吉,赵志华,徐达,邢志伟 (中国民航大学电子信息与自动化学院,天津300300) 摘要:针对语音情感识别研究体系进行综述。这一体系包括情感描述模型、情感语音数据库、特征提取与降 维、情感分类与回归算法4个方面的内容。本文总结离散情感模型、维度情感模型和两模型间单向映射的情感 描述方法:归纳出情感语音数据库选择的依据:细化了语音情感特征分类并列出了常用特征提取工具:最后对 特征提取和情感分类与回归的常用算法特点进行凝练并总结深度学习研究进展,并提出情感语音识别领域需 要解决的新问题、预测了发展趋势。 关键词:深度学习;情感语音数据库;情感描述模型;语音情感特征;特征提取;特征降维;情感分类;情感回归 中图分类号:TP391 文献标志码:A 文章编号:1673-4785(2020)01-0001-13 中文引用格式:高庆吉,赵志华,徐达,等.语音情感识别研究综述.智能系统学报,2020,15(1):1-13 英文引用格式:GAO Qingji,ZHAO Zhihua,,XUDa,ctal.Review on speech emotion recognition researchJ.CAAI transactions on intelligent systems,2020,15(1):1-13. Review on speech emotion recognition research GAO Qingji,ZHAO Zhihua,XU Da,XING Zhiwei (College of Electronic Information and Automation,Civil Aviation University of China,Tianjin 300300,China) Abstract:In this paper,the research system of speech emotion recognition is summarized.The system includes four as- pects:emotion description models,emotion speech database,feature extraction and dimensionality reduction,sentiment classification and regression algorithms.Firstly,we sum up the emotional description method of discrete emotion model, dimensional emotion model and one-way mapping between two models,then conclude the basis of emotional speech database selection,and then refine the classification of speech emotion features and list common tools for extracting the characteristics,and finally,extract the features of common algorithms,such as feature extraction,emotion classification and regression,and make a conclusion of the progress made in deep-learning research.In addition,we also propose some problems that need to be solved in this field and predict development trend. Keywords:deep learning;sentiment speech databases;sentiment description models;acoustic sentiment features;fea- ture extraction;feature reduction;sentiment classification;sentiment regression 语音情感计算包括语音情感识别、表达和合 动翻译结果来帮助各方发言者顺畅交流M等。 成等内容,近年受到广泛关注。其中,语音情感 近年来,研究者们就语音情感识别做了大量 识别应用广泛,具有不可替代的作用。如结合驾 研究。韩文静等图从情感描述模型、情感语音数 驶员的语音川、表情:别和行为信息检测其精神 据库、特征提取和识别算法4个角度总结了2014 状态,提醒驾驶员控制情绪、安全驾驶:依据可穿 年为止的语音情感识别的研究进展,并重点分析 戴设备采集病人的语音信号实时检测其异常情感 SVM、GMM等传统机器学习算法对离散情感的 状态s1,提高治疗效率;结合语音情感信息和自 分类效果。随着深度学习技术逐步完善,在海量 收稿日期:2019-04-27. 复杂数据建模上有很大优势,多用于解决数据分 基金项目:国家自然科学基金委员会-中国民航局民航联合研 类。同时,部分研究者将其应用于语音特征的提 究基金项目(U1533203). 通信作者:赵志华.E-mail:657902648@qq.com 取,取得了一定的成果。2018年,刘振焘等介
DOI: 10.11992/tis.201904065 语音情感识别研究综述 高庆吉,赵志华,徐达,邢志伟 (中国民航大学 电子信息与自动化学院,天津 300300) 摘 要:针对语音情感识别研究体系进行综述。这一体系包括情感描述模型、情感语音数据库、特征提取与降 维、情感分类与回归算法 4 个方面的内容。本文总结离散情感模型、维度情感模型和两模型间单向映射的情感 描述方法;归纳出情感语音数据库选择的依据;细化了语音情感特征分类并列出了常用特征提取工具;最后对 特征提取和情感分类与回归的常用算法特点进行凝练并总结深度学习研究进展,并提出情感语音识别领域需 要解决的新问题、预测了发展趋势。 关键词:深度学习;情感语音数据库;情感描述模型;语音情感特征;特征提取;特征降维;情感分类;情感回归 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)01−0001−13 中文引用格式:高庆吉, 赵志华, 徐达, 等. 语音情感识别研究综述 [J]. 智能系统学报, 2020, 15(1): 1–13. 英文引用格式:GAO Qingji, ZHAO Zhihua, XU Da, et al. Review on speech emotion recognition research[J]. CAAI transactions on intelligent systems, 2020, 15(1): 1–13. Review on speech emotion recognition research GAO Qingji,ZHAO Zhihua,XU Da,XING Zhiwei (College of Electronic Information and Automation, Civil Aviation University of China, Tianjin 300300, China) Abstract: In this paper, the research system of speech emotion recognition is summarized. The system includes four aspects: emotion description models, emotion speech database, feature extraction and dimensionality reduction, sentiment classification and regression algorithms. Firstly, we sum up the emotional description method of discrete emotion model, dimensional emotion model and one-way mapping between two models, then conclude the basis of emotional speech database selection, and then refine the classification of speech emotion features and list common tools for extracting the characteristics, and finally, extract the features of common algorithms, such as feature extraction, emotion classification and regression, and make a conclusion of the progress made in deep-learning research. In addition, we also propose some problems that need to be solved in this field and predict development trend. Keywords: deep learning; sentiment speech databases; sentiment description models; acoustic sentiment features; feature extraction; feature reduction; sentiment classification; sentiment regression 语音情感计算包括语音情感识别、表达和合 成等内容,近年受到广泛关注。其中,语音情感 识别应用广泛,具有不可替代的作用。如结合驾 驶员的语音[1] 、表情[2-3] 和行为[4] 信息检测其精神 状态,提醒驾驶员控制情绪、安全驾驶;依据可穿 戴设备采集病人的语音信号实时检测其异常情感 状态[5-6] ,提高治疗效率;结合语音情感信息和自 动翻译结果来帮助各方发言者顺畅交流[7] 等。 近年来,研究者们就语音情感识别做了大量 研究。韩文静等[8] 从情感描述模型、情感语音数 据库、特征提取和识别算法 4 个角度总结了 2014 年为止的语音情感识别的研究进展,并重点分析 SVM、GMM 等传统机器学习算法对离散情感的 分类效果。随着深度学习技术逐步完善,在海量 复杂数据建模上有很大优势,多用于解决数据分 类。同时,部分研究者将其应用于语音特征的提 取,取得了一定的成果。2018 年,刘振焘等[9] 介 收稿日期:2019−04−27. 基金项目:国家自然科学基金委员会−中国民航局民航联合研 究基金项目 (U1533203). 通信作者:赵志华. E-mail:657902648@qq.com. 第 15 卷第 1 期 智 能 系 统 学 报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020
·2 智能系统学报 第15卷 绍了语音情感特征提取和降维的方法,其中,重 别或数字维度组合(空间坐标值)。根据表征方 点描述了基于BN-DBN、CNN等深度学习方法的 式不同,分为离散情感模型和维度情感模型。 语音特征提取相关研究。 离散情感模型使用形容词标签表示情感。 随着研究者深人探索,语音情感识别在以下 Mover简单地将离散情感分为痛苦、快乐两类基 几方面进展突出:维度情感和离散情感到维度情 本情感;进一步,Ekman2将离散情感分成愤 感的映射使情感描述更精确;情感语音数据库联 怒、厌恶、恐惧、快乐、悲伤和惊喜6种基本情 合使用;采用深度学习方法进行特征提取和情感 感。目前常用10余种情感描述模型中,使用最广 分类与回归:情感识别算法向更深层网络、多方 泛的是Ekman提出的6种基本情感和在此基础上 法融合角度演变。 加入中性的7种基本情感1。离散情感模型简单 本文将从情感描述模型、情感语音数据库、 直观,运用广泛,但描述精确度不高、连续性不 特征提取与降维、情感分类与回归算法四个环节 好,表征情感能力有限。为克服以上不足,学者 综述当前主流技术和前沿进展,然后总结深度学 们建立了维度情感模型。 习研究的难点,指出未来的研究趋势。其中,着 维度情感模型可以在二维或多维空间中构 重分析深度学习算法在特征提取、情感分类与回 造,用以描述连续情感。可利用效价一唤醒二维 归算法方面的研究进展。 模型(valence-arousal,VA)描述情感的极性和度量 情感程度,能够表示大部分情感;愉悦-唤醒-支 1情感描述模型 配三维模型(pleasure-arousal-dominance,PAD)在 完整的语音情感识别包括采集语音片段、预 VA模型上添加支配维,用以描述周围环境对自 处理、语音特征提取与降维、情感分类与回归等 身的影响,如高支配度是一种主宰感,低支配度 流程,如图1所示。 是一种软弱感,理论上可以表示无穷多种情感, 但难以表述惊讶。Fontaine等16研究表明,在 开始 PAD模型基础上添加期望维,度量个体对情感出 现的准备性,可以描述惊讶。维度情感模型表征 采集语音片段 情感能力强(情感类别多、精确性高),可连续表征 情感变化,但维度情感理解困难且操作复杂,目 预处理 前研究者较少。 因此,为合理利用现有基于离散情感模型建 情感特征提取 立的数据库,研究者们开始关注离散情感和维度 特征降维 情感间的映射。Russell提出环形模型刀,将VA 模型空间中的某些区域解释为28种离散情感。 而后,Yik等1将维度情感聚类为8种基本离散 是否训练 情感,即情绪轮。再后,又将该模型聚类情感扩 展到l2种。Plutchik!9引入更加复杂的混合情感 分类计算 语音情感 模型参数 模型,即情绪“沙漏”。目前,环形模型和情绪“沙 分类模型 优化 漏的关联性是大家关注的焦点,实用性有待研究。 输出情感 离散情感模型简单直接易搭建,但描述精度 不足;维度情感模型描述精度高,情感表征能力 强,但操作复杂,文献不多:离散情感和维度情感 是否继续 间的映射有研究价值,但实用性有待研究。故如 何更好地将离散情感与维度情感结合来提升情感 状态表征精度,受到广泛关注。 结束 2情感语音数据库与数据标注 图1语音情感识别流程图 Fig.1 Speech emotion recognition flow chart 2.1情感语音数据库 实现语音情感识别,首先需要定义情感。情 研究情感分类与回归算法,需要数据库的支 感描述模型将情感表征为一组互斥的离散情感类 撑。目前情感语音数据库数量较多,但没有统一
绍了语音情感特征提取和降维的方法,其中,重 点描述了基于 BN-DBN、CNN 等深度学习方法的 语音特征提取相关研究。 随着研究者深入探索,语音情感识别在以下 几方面进展突出:维度情感和离散情感到维度情 感的映射使情感描述更精确;情感语音数据库联 合使用;采用深度学习方法进行特征提取和情感 分类与回归;情感识别算法向更深层网络、多方 法融合角度演变。 本文将从情感描述模型、情感语音数据库、 特征提取与降维、情感分类与回归算法四个环节 综述当前主流技术和前沿进展,然后总结深度学 习研究的难点,指出未来的研究趋势。其中,着 重分析深度学习算法在特征提取、情感分类与回 归算法方面的研究进展。 1 情感描述模型 完整的语音情感识别包括采集语音片段、预 处理、语音特征提取与降维、情感分类与回归等 流程,如图 1 所示。 开始 预处理 情感特征提取 特征降维 结束 Y N 采集语音片段 输出情感 是否训练 分类计算 语音情感 分类模型 N Y 模型参数 优化 是否继续 图 1 语音情感识别流程图 Fig. 1 Speech emotion recognition flow chart 实现语音情感识别,首先需要定义情感。情 感描述模型将情感表征为一组互斥的离散情感类 别或数字维度组合[10] (空间坐标值)。根据表征方 式不同,分为离散情感模型和维度情感模型。 离散情感模型使用形容词标签表示情感。 Mover 简单地将离散情感分为痛苦、快乐两类基 本情感[11] ;进一步,Ekman[12] 将离散情感分成愤 怒、厌恶、恐惧、快乐、悲伤和惊喜 6 种基本情 感。目前常用 10 余种情感描述模型中,使用最广 泛的是 Ekman 提出的 6 种基本情感和在此基础上 加入中性的 7 种基本情感[13]。离散情感模型简单 直观,运用广泛,但描述精确度不高、连续性不 好,表征情感能力有限。为克服以上不足,学者 们建立了维度情感模型。 维度情感模型可以在二维或多维空间中构 造,用以描述连续情感。可利用效价−唤醒二维 模型 (valence-arousal, VA) 描述情感的极性和度量 情感程度,能够表示大部分情感;愉悦−唤醒−支 配三维模型 (pleasure-arousal-dominance, PAD) 在 VA 模型上添加支配维,用以描述周围环境对自 身的影响,如高支配度是一种主宰感,低支配度 是一种软弱感[14] ,理论上可以表示无穷多种情感, 但难以表述惊讶[15]。Fontaine 等 [16] 研究表明,在 PAD 模型基础上添加期望维,度量个体对情感出 现的准备性,可以描述惊讶。维度情感模型表征 情感能力强 (情感类别多、精确性高),可连续表征 情感变化,但维度情感理解困难且操作复杂,目 前研究者较少。 因此,为合理利用现有基于离散情感模型建 立的数据库,研究者们开始关注离散情感和维度 情感间的映射。Russell 提出环形模型[17] ,将 VA 模型空间中的某些区域解释为 28 种离散情感。 而后,Yik 等 [18] 将维度情感聚类为 8 种基本离散 情感,即情绪轮。再后,又将该模型聚类情感扩 展到 12 种。Plutchik[19] 引入更加复杂的混合情感 模型,即情绪“沙漏”。目前,环形模型和情绪“沙 漏”的关联性是大家关注的焦点,实用性有待研究[10]。 离散情感模型简单直接易搭建,但描述精度 不足;维度情感模型描述精度高,情感表征能力 强,但操作复杂,文献不多;离散情感和维度情感 间的映射有研究价值,但实用性有待研究。故如 何更好地将离散情感与维度情感结合来提升情感 状态表征精度,受到广泛关注。 2 情感语音数据库与数据标注 2.1 情感语音数据库 研究情感分类与回归算法,需要数据库的支 撑。目前情感语音数据库数量较多,但没有统一 ·2· 智 能 系 统 学 报 第 15 卷
第1期 高庆吉,等:语音情感识别研究综述 的划分标准。为方便理解,学者们从情感描述角 言、标注人数、离散情感种类数、样本量及激发方 度,将语音数据库划分为离散情感数据库和维度 式6个方面分别分析常用离散和维度情感语音数 情感数据库两类。表1和表2从参与人数、语 据库。 表1常用离散情感语音数据库统计表 Table 1 Statistical table of the frequently used discrete emotion speech databases 数据库 参与人数 语言 标注者数 离散情感 样本量 激发方式 BAUM-1s1201 17男、14女 土耳其语 5 8 1222个 自然 SAVEERn 4男 英语 10 > 480个 表演 RMLP☒ 8 7种 2 6 720个 表演 EMO-DBI231 5男、5女 德语 20 > 535个 表演 eNTERFACE'05R41 34男、8女 英语 2 6 1166个 表演 RAVDESSI2ST 12男、12女 英语 247 1440个 引导 FAU AIBO2阿 21男、30女 德语 5 9 9.2h 自然 CASIA汉语数据库图 2男、2女 汉语 9600个 表演 ACCorpus_SRt8] 25男、25女 汉语 表演 表2常用维度情感语音数据库统计表 Table 2 Statistical table of the frequently used dimensional emotion speech databases 数据库 参与人数 语言 标注者数 维度情感 样本量 激发方式 VAM2可 47 德语 6-34 V、A、D 1018个 自然 FAU AIBOL61 30男、21女 德语 P、A、D 9.2h 自然 IEMOCAPR8] 5男、5女 英语 ≥2 V、A、D 1150个 引导 RECOLAI291 46 法语 6 V、A 9.5h 引导 CreativelT 7男、9女 英语 34 V、A、D 8h 引导 SEMAINEB 150 德语 2-8 V、A、D、E、I 80h 引导 注:P为愉悦维;V为效价维;A为唤醒维;D为支配维;E为期望维;I为强度维.愉悦(Pleasure)维和效价(Valence)维同义 表1和表2根据激发方式将数据库分为自然 CAP。而并且嘈杂环境最接近自然环境,在其中 型、表演型和引导型数据库。自然型数据库采集 采集样本,数据库建立的难度较大,也对识别算 的语音样本最接近自然交流,但是其制作难度 法鲁棒性提出严峻挑战。 高,目前数量较少,常用FAU AIBO数据库2a和 2.2 数据标注 VAM数据库2m;表演型数据库要求专业演员在 离散情感数据库主要采用标注者投票判别情 安静环境中根据指定语料进行表演并采集语音 感种类和准确性®2刘,使用专业工具辅助判别较 样本:引导型数据库数量最多,常通过视频或对 少。维度情感数据库借助SAM系统B41或MAAT 话诱导安静环境中的参与者表达相应情感以获 工具B量化PAD模型维度取值;FEELTRACE0 取样本。进一步可看出,常见离散情感语音数据 量化VA模型维度取值;AnneMo一次仅标记 库多属于表演型,常见维度情感语音数据库多属 一个维度,结果更精确。 于引导型。 同时,情感标注也要求标注者有一定的经验, 此外,由表1和表2可知,多数数据库区分性 同时标注过程中精神高度集中。多数数据库采用 别和语言种类。研究者可利用此信息度量不同性 对多标注者标注的数据进行插值、标准化等处 别、跨文化等语境特征对情感识别的影响并建立 理,以降低标注者自身因素对标注结果的干扰。 智能推理模型,为实现个性化人机交互提供可能四。 语音情感数据库不断丰富,情感描述能力不 进一步,离散情感与维度情感联合建立数据 断提升的同时,对数据标注的新需求也不断扩 库,便于研究者理解和使用,如FAU AIBO;结合 充,如何通过模块设计等方法集成各优秀的数据 面部表情、语音和姿态等1建立多模态数据库, 标注工具的性能集成,是一个研究方向。此外, 拓展识别算法的信息维度,如SAVEE、IEMO- 研究者开始探索弱标注,即采用半监督的方法提
的划分标准。为方便理解,学者们从情感描述角 度,将语音数据库划分为离散情感数据库和维度 情感数据库两类。表 1 和表 2 从参与人数、语 言、标注人数、离散情感种类数、样本量及激发方 式 6 个方面分别分析常用离散和维度情感语音数 据库。 表 1 常用离散情感语音数据库统计表 Table 1 Statistical table of the frequently used discrete emotion speech databases 数据库 参与人数 语言 标注者数 离散情感 样本量 激发方式 BAUM-1s[20] 17男、14女 土耳其语 5 8 1 222个 自然 SAVEE[21] 4男 英语 10 7 480个 表演 RML[22] 8 7种 2 6 720个 表演 EMO-DB[23] 5男、5女 德语 20 7 535个 表演 eNTERFACE'05[24] 34男、8女 英语 2 6 1 166个 表演 RAVDESS[25] 12男、12女 英语 247 8 1 440个 引导 FAU AIBO[26] 21男、30女 德语 5 9 9.2 h 自然 CASIA汉语数据库[8] 2男、2女 汉语 — 5 9 600个 表演 ACCorpus_SR[8] 25男、25女 汉语 — 5 — 表演 表 2 常用维度情感语音数据库统计表 Table 2 Statistical table of the frequently used dimensional emotion speech databases 数据库 参与人数 语言 标注者数 维度情感 样本量 激发方式 VAM[27] 47 德语 6~34 V、A、D 1 018个 自然 FAU AIBO[26] 30男、21女 德语 5 P、A、D 9.2 h 自然 IEMOCAP[28] 5男、5女 英语 ≥2 V、A、D 1 150个 引导 RECOLA[29] 46 法语 6 V、A 9.5 h 引导 CreativeIT[30] 7男、9女 英语 3~4 V、A、D 8 h 引导 SEMAINE[31] 150 德语 2~8 V、A、D、E、I 80 h 引导 注:P为愉悦维; V为效价维; A为唤醒维; D为支配维; E为期望维; I为强度维. 愉悦(Pleasure)维和效价(Valence)维同义. 表 1 和表 2 根据激发方式将数据库分为自然 型、表演型和引导型数据库。自然型数据库采集 的语音样本最接近自然交流,但是其制作难度 高,目前数量较少,常用 FAU AIBO 数据库[26] 和 VAM 数据库[27] ;表演型数据库要求专业演员在 安静环境中根据指定语料进行表演并采集语音 样本;引导型数据库数量最多,常通过视频或对 话诱导安静环境中的参与者表达相应情感以获 取样本。进一步可看出,常见离散情感语音数据 库多属于表演型,常见维度情感语音数据库多属 于引导型。 此外,由表 1 和表 2 可知,多数数据库区分性 别和语言种类。研究者可利用此信息度量不同性 别、跨文化等语境特征对情感识别的影响并建立 智能推理模型,为实现个性化人机交互提供可能[32]。 进一步,离散情感与维度情感联合建立数据 库,便于研究者理解和使用,如 FAU AIBO;结合 面部表情、语音和姿态等[33] 建立多模态数据库, 拓展识别算法的信息维度,如 SAVEE、IEMOCAP。而并且嘈杂环境最接近自然环境,在其中 采集样本,数据库建立的难度较大,也对识别算 法鲁棒性提出严峻挑战。 2.2 数据标注 离散情感数据库主要采用标注者投票判别情 感种类和准确性[20,24] ,使用专业工具辅助判别较 少。维度情感数据库借助 SAM 系统[34] 或 MAAT 工具[35] 量化 PAD 模型维度取值;FEELTRACE[30] 量化 VA 模型维度取值;ANNEMO[36] 一次仅标记 一个维度,结果更精确[15]。 同时,情感标注也要求标注者有一定的经验, 同时标注过程中精神高度集中。多数数据库采用 对多标注者标注的数据进行插值、标准化等处 理,以降低标注者自身因素对标注结果的干扰。 语音情感数据库不断丰富,情感描述能力不 断提升的同时,对数据标注的新需求也不断扩 充,如何通过模块设计等方法集成各优秀的数据 标注工具的性能集成,是一个研究方向。此外, 研究者开始探索弱标注,即采用半监督的方法提 第 1 期 高庆吉,等:语音情感识别研究综述 ·3·
智能系统学报 第15卷 取无标注和有标注样本的公共信息,学习无标注 识别效果最佳。 的样本,充分利用数据库。 混合特征融合两种及两种以上的特征。金琴 等例为每个情感类构建一个情感词典,其中包含 3特征提取与降维 特定情绪的词汇和分配的权重,用以表明这种情 如何提取语音中的丰富情感信息并凝练,直 感的倾向。然后,使用此情感词典为每个话语生 接影响情感分类和回归算法的运算效率和准确 成矢量特征表示即情感向量词汇特征。最后,融 性。因此,提取有代表性的语音情感特征并进行 合声学特征、情感向量和BoW,提升情感识别准 降维,便显得十分必要。 确率。Ashish等s以语境特征和声学特征为切入 3.1预处理 点,系统分析了区分和忽略性别信息对情感识别 为消除人体语音器官和声音采集设备的差 率的影响。实验结果表明,区分性别的情感识别 异、混叠、高次谐波失真等影响,在特征提取前需 更准确。 进行预处理。预处理包括:提取语音信号的起始 3)深度情感特征提取 点和终止点的端点检测、将语音信号转化为短时 因低级特征数量有限、提取耗资且不能完整 平稳分析帧的加窗分帧、对高频部分进行加重, 描述语音信号,所以研究者尝试从低级特征中进 增强分辨率的预加重等.38 一步提取高级特征或直接批量处理原始音频,自 3.2特征提取 动提取高级特征,例如深度特征。深度学习可 深度特征是深度学习提取的高级特征,在语 从每层网络和网络层次结构中提取复杂特征一深 音情感识别应用中表现突出3,故将特征在原来 度特征,常用方法有卷积神经网络(convolutional 4类0基础上拓展为声学、语言、语境、深度和混 neural network,CNN)、深度信念网络(deep belief 合共5类特征。 network,.DBN)、深度神经网络(deep neural net- 1)声学特征提取 work,DNN)等。 声学特征分为3类:韵律学特征、基于谱的相 王忠民等采用CNN从语谱图中提取图像 关特征和声音质量特征,描述语音的音调、幅度、 特征,改善MFCC丢失信息识别准确率不高的问 音色等信息。如共振峰、梅尔频率倒谱系数14 题。但CNN无法准确捕捉语谱图中特征的空间 (Mel frequency cepstrum coefficient,.MFCC)和抖动 信息,为此Wu等s采用两个循环连接的胶囊网 和谐波噪声比(harmonic to noise ratio,HNR)。常 络提取特征,增强时空敏感度。此外,Zhang等o 规提取方法,如自相关函数法和小波法,可参考 以类似于RGB图像表示的3个对数梅尔光谱图 文献[9]。 作为DCNN的输人,然后通过ImageNet'ss预训练 此外,为减少手工提取的复杂性和盲目性,学 的AlexNet DCNN模型学习光谱图通道中的高级 者们采用深度学习提取声学特征啊。如分层稀疏 特征表示,最后将学习的特征由时间金字塔匹配 编码以无人监督的方式,自动挖掘情绪语音数 (DTPM)策略聚合得到全局深度特征,进一步提 据的非线性特征,语音情感区分特性更强;基于 升对有限样本特征提取的有效性。为有效描述情 双层神经网络的域自适应方法4]可共享源域和 感连续性变化,Zhao等s6采用局部特征学习块 目标域中相关类的公共先验知识,实现源域和目 从log-mel谱图提取的局部特征,重构为时序形式 标域的共享特征表示,可有效传递知识和提高分 后输入至长短期记忆网络(long and short term 类性能。 memory network,LSTM),以进一步提取全局上下 2)语言、语境和混合特征提取 文特征。 语言特征通过对语义信息进行分析提取获 张丽等5采用贪婪算法进行无监督学习,通 得。研究者提出对语义按固定长度分段,比对码 过BP神经网络反向微调,找到全局最优点,再将 本将其转化为特征向量,如BoW(Bag of Words) DBN算法的输出参数作为深度特征,并在此过程 BoNG(Bag of N-grams)50 BoCNG(Bag of Character 中,采用随机隐退思想防止过拟合。 N-grams)网和小波特征B等。 进一步,为解决基于多样本库的源域和目标 语境特征主要描述不同说话者的性别和文化 域中数据分布差异,Abdelwahab等s采用域对抗 背景的差异0。区分性别能改善分类效果②。通 神经网络创建源域(USC-IEMOCAP和MSP-IM- 过对比分析文化内、多元文化和跨文化情况下情 PROV数据库)和目标域(MSP-Podcast数据库)的 感识别效果,其中,文化内、多元文化背景下情感 共同特征表示一深度特征,然后通过梯度反转
取无标注和有标注样本的公共信息,学习无标注 的样本,充分利用数据库。 3 特征提取与降维 如何提取语音中的丰富情感信息并凝练,直 接影响情感分类和回归算法的运算效率和准确 性。因此,提取有代表性的语音情感特征并进行 降维,便显得十分必要。 3.1 预处理 为消除人体语音器官和声音采集设备的差 异、混叠、高次谐波失真等影响,在特征提取前需 进行预处理。预处理包括:提取语音信号的起始 点和终止点的端点检测、将语音信号转化为短时 平稳分析帧的加窗分帧、对高频部分进行加重, 增强分辨率的预加重等[37-38]。 3.2 特征提取 深度特征是深度学习提取的高级特征,在语 音情感识别应用中表现突出[39] ,故将特征在原来 4 类 [40] 基础上拓展为声学、语言、语境、深度和混 合共 5 类特征。 1) 声学特征提取 声学特征分为 3 类:韵律学特征、基于谱的相 关特征和声音质量特征,描述语音的音调、幅度、 音色等信息。如共振峰、梅尔频率倒谱系数[41-45] (Mel frequency cepstrum coefficient, MFCC) 和抖动 和谐波噪声比 (harmonic to noise ratio, HNR)。常 规提取方法,如自相关函数法和小波法,可参考 文献 [9]。 此外,为减少手工提取的复杂性和盲目性,学 者们采用深度学习提取声学特征[46]。如分层稀疏 编码[47] 以无人监督的方式,自动挖掘情绪语音数 据的非线性特征,语音情感区分特性更强;基于 双层神经网络的域自适应方法[48] 可共享源域和 目标域中相关类的公共先验知识,实现源域和目 标域的共享特征表示,可有效传递知识和提高分 类性能。 2) 语言、语境和混合特征提取 语言特征通过对语义信息进行分析提取获 得。研究者提出对语义按固定长度分段,比对码 本将其转化为特征向量,如 BoW(Bag of Words)[49] , BoNG(Bag of N-grams)[50] 、BoCNG(Bag of Character N-grams)[50] 和小波特征[51] 等。 语境特征主要描述不同说话者的性别和文化 背景的差异[40]。区分性别能改善分类效果[52]。通 过对比分析文化内、多元文化和跨文化情况下情 感识别效果,其中,文化内、多元文化背景下情感 识别效果最佳[53]。 混合特征融合两种及两种以上的特征。金琴 等 [49] 为每个情感类构建一个情感词典,其中包含 特定情绪的词汇和分配的权重,用以表明这种情 感的倾向。然后,使用此情感词典为每个话语生 成矢量特征表示即情感向量词汇特征。最后,融 合声学特征、情感向量和 BoW,提升情感识别准 确率。Ashish 等 [52] 以语境特征和声学特征为切入 点,系统分析了区分和忽略性别信息对情感识别 率的影响。实验结果表明,区分性别的情感识别 更准确。 3) 深度情感特征提取 因低级特征数量有限、提取耗资且不能完整 描述语音信号,所以研究者尝试从低级特征中进 一步提取高级特征或直接批量处理原始音频,自 动提取高级特征,例如深度特征[39]。深度学习可 从每层网络和网络层次结构中提取复杂特征—深 度特征,常用方法有卷积神经网络 (convolutional neural network, CNN)、深度信念网络 (deep belief network, DBN)、深度神经网络 (deep neural network, DNN) 等。 王忠民等[43] 采用 CNN 从语谱图中提取图像 特征,改善 MFCC 丢失信息识别准确率不高的问 题。但 CNN 无法准确捕捉语谱图中特征的空间 信息,为此 Wu 等 [54] 采用两个循环连接的胶囊网 络提取特征,增强时空敏感度。此外,Zhang 等 [40] 以类似于 RGB 图像表示的 3 个对数梅尔光谱图 作为 DCNN 的输入,然后通过 ImageNet[55] 预训练 的 AlexNet DCNN 模型学习光谱图通道中的高级 特征表示,最后将学习的特征由时间金字塔匹配 (DTPM) 策略聚合得到全局深度特征,进一步提 升对有限样本特征提取的有效性。为有效描述情 感连续性变化,Zhao 等 [56] 采用局部特征学习块 从 log-mel 谱图提取的局部特征,重构为时序形式 后输入至长短期记忆网络 (long and short term memory network, LSTM),以进一步提取全局上下 文特征。 张丽等[57] 采用贪婪算法进行无监督学习,通 过 BP 神经网络反向微调,找到全局最优点,再将 DBN 算法的输出参数作为深度特征,并在此过程 中,采用随机隐退思想防止过拟合。 进一步,为解决基于多样本库的源域和目标 域中数据分布差异,Abdelwahab 等 [58] 采用域对抗 神经网络创建源域 (USC-IEMOCAP 和 MSP-IMPROV 数据库) 和目标域 (MSP-Podcast 数据库) 的 共同特征表示−深度特征, 然后通过梯度反转 ·4· 智 能 系 统 学 报 第 15 卷
第1期 高庆吉,等:语音情感识别研究综述 ·5· 层将域分类器生成的梯度在传播回共享层时乘以 目前Praat6和OpenSMILE两种工具使用 负值,使训练集和测试集的特征收敛,提升泛化 最广泛。Praat是一款语音学专业软件,其GUI界 能力。同时使用t-SNE数据可视化技术s,通过 面简洁且指导手册持续更新,便于学习。可对语 创建不同层的特征分布2D投影,直观检查模型 音文件进行特征提取、标注等工作,结果可导 学习特征表示的全过程。 出。OpenSMILE使用命令行和GUI结合的方式 此外,说话者无关训练(speaker-invariant train- 进行使用。常用配置文件config/1S09/10/11/12/13 ing,SIT,模型的学习结果与说话者自身无关,即 paraling.conf,分别提取384、1582、4368、6125 要求模型有较强的泛化能力)60通过对抗性学习 和6373维特征。此外,在Tensorflow框架中,可 减少声学建模过程中说话者差异的影响,再联合 以调用Librosa工具包提取频谱图、MFCC等特 DNN,来提取与说话者无关且辨别力强的深度特征。 征,便于后续识别。表3整理了更多的提取工具 4)常用特征提取工具 可供学习。 表3常用语音特征提取工具统计表侧 Table 3 Statistical table of common speech feature extraction tools 工具箱 平台 提取特征 Praat C++ 信号能量、FFT频谱、倒频谱、语音质量、LPC、共振峰等 OpenSMILE C++ 波形、信号能量、FFT光谱、语音质量、Mel/Bark光谱、共振峰等 HTK 0 信号能量、Mel/Bark光谱、LPC、波形等 Voicebox MATLAB 信号能量、FO、LPC、倒谱、Mel/Bark光谱等 COLEA MATLAB F0、共振峰、频谱、信号能量等 SPEFT MATLAB 波形、信号能量、语音质量、共振峰、倒谱、Mel/Bark频谱等 SPAC MATLAB FO、共振峰、语音质量、LPCC、MFCC、信号能量、语速、小波等 3.3特征降维 情感类别,常使用支持向量机(support vector ma- 上述特征提取方法得到的语音情感特征一般 chines,SVM)、隐马尔可夫模型(hidden Markov 维数较高,直接处理易导致维度灾难。为保障识 model,HMM)和DCNN。 别准确率和效率,采用主成分分析(principle com- SVMs在求解非线性、小样本和高维模式 ponent analysis,PCA)s、Fisher准则B、线性判别 识别等问题具有优越性,且泛化能力强,在情感 分析(linear discriminate analysis,.LDA)6s1和 分类中广泛使用3劉。半定规划多核SVM2来提 FCBF(fast correlation-.based filter solution)Is等方法 高分类算法的鲁棒性。 进行特征降维。如BP神经网络67可进行特征选 Zheng等采用DCNN对通过PCA白化处 择,检测冗余的同时,通过节点信号变化的敏感 理的光谱图学习处理并进行情感分类,结果表明 度挑选对网络贡献度大的特征得到组合特征。 该方法优于SVM。进一步,Shahin等级联高斯 声学特征因提取算法和提取工具丰富,使用 混合模型和深度神经网络(gaussian mixture model- 广泛;深度学习框架环境日益发展,被更多研究 deep neural network,GMM-DNN)构建混合分类 者用于提取情感特征。此外,声学和语义是语音 器,其分类性能优于SVM、MLP(multi--layer per- 信号的两个主要部分。随着文本情感研究深入, ception)、GMM和DNN,并且在嘈杂谈话背景下, 从语义中提取的语言特征将会成为混合特征中的 情感分类效果良好。 重要组成部分。故如何有效利用句子含义与转折 Sagha等以OpenSMILE提取384个特征为 词,精简语言特征并提升特征的有效性,将成为 基于核典型相关分析的域自适应方法的输入,在 研究热点。 EMODB、SAVEE、EMOVO和Polish等4个不同 4情感分类与回归 语言的语音数据库上实现跨语料库迁移学习,学 习速度快且有效克服过拟合,明显降低陷人局部 根据情感表征方式不同,将目前主流识别算 最小值的风险。 法分为情感分类算法和情感回归算法两类。 以上算法均针对语音信号来提升情感分类准 4.1情感分类算法 确性。此外,融合其他模态的特征,如面部表 情感分类算法将测试集样本归类为不同离散 情)、姿态和生理信号四,可提升情感分类的鲁棒
层将域分类器生成的梯度在传播回共享层时乘以 负值,使训练集和测试集的特征收敛,提升泛化 能力。同时使用 t-SNE 数据可视化技术[59] ,通过 创建不同层的特征分布 2D 投影,直观检查模型 学习特征表示的全过程。 此外,说话者无关训练 (speaker-invariant training,SIT,模型的学习结果与说话者自身无关,即 要求模型有较强的泛化能力) [60] 通过对抗性学习 减少声学建模过程中说话者差异的影响,再联合 DNN,来提取与说话者无关且辨别力强的深度特征。 4) 常用特征提取工具 目前 Praat[61] 和 OpenSMILE[62] 两种工具使用 最广泛。Praat 是一款语音学专业软件,其 GUI 界 面简洁且指导手册持续更新,便于学习。可对语 音文件进行特征提取、标注等工作,结果可导 出。OpenSMILE 使用命令行和 GUI 结合的方式 进行使用。常用配置文件 config/IS09/10/11/12/13 paraling. conf,分别提取 384、1 582、4 368、6 125 和 6 373 维特征。此外,在 Tensorflow 框架中,可 以调用 Librosa 工具包提取频谱图、MFCC 等特 征,便于后续识别。表 3 整理了更多的提取工具 可供学习。 表 3 常用语音特征提取工具统计表[63] Table 3 Statistical table of common speech feature extraction tools 工具箱 平台 提取特征 Praat C++ 信号能量、FFT频谱、倒频谱、语音质量、LPC、共振峰等 OpenSMILE C++ 波形、信号能量、FFT光谱、语音质量、Mel/Bark光谱、共振峰等 HTK C 信号能量、Mel/Bark光谱、LPC、波形等 Voicebox MATLAB 信号能量、F0、LPC、倒谱、Mel/Bark光谱等 COLEA MATLAB F0、共振峰、频谱、信号能量等 SPEFT MATLAB 波形、信号能量、语音质量、共振峰、倒谱、Mel/Bark频谱等 SPAC MATLAB F0、共振峰、语音质量、LPCC、MFCC、信号能量、语速、小波等 3.3 特征降维 上述特征提取方法得到的语音情感特征一般 维数较高,直接处理易导致维度灾难。为保障识 别准确率和效率,采用主成分分析 (principle component analysis, PCA)[64] 、Fisher 准则[38] 、线性判别 分析 (linear discriminate analysis, LDA)[ 6 5 ] 和 FCBF(fast correlation-based filter solution) [66] 等方法 进行特征降维。如 BP 神经网络[67] 可进行特征选 择,检测冗余的同时,通过节点信号变化的敏感 度挑选对网络贡献度大的特征得到组合特征。 声学特征因提取算法和提取工具丰富,使用 广泛;深度学习框架环境日益发展,被更多研究 者用于提取情感特征。此外,声学和语义是语音 信号的两个主要部分。随着文本情感研究深入, 从语义中提取的语言特征将会成为混合特征中的 重要组成部分。故如何有效利用句子含义与转折 词,精简语言特征并提升特征的有效性,将成为 研究热点。 4 情感分类与回归 根据情感表征方式不同,将目前主流识别算 法分为情感分类算法和情感回归算法两类。 4.1 情感分类算法 情感分类算法将测试集样本归类为不同离散 情感类别,常使用支持向量机 (support vector machines, SVM)、隐马尔可夫模型 (hidden Markov model, HMM) 和 DCNN。 SVM[68-71] 在求解非线性、小样本和高维模式 识别等问题具有优越性,且泛化能力强,在情感 分类中广泛使用[38]。半定规划多核 SVM[72] 来提 高分类算法的鲁棒性。 Zheng 等 [73] 采用 DCNN 对通过 PCA 白化处 理的光谱图学习处理并进行情感分类,结果表明 该方法优于 SVM。进一步,Shahin 等 [74] 级联高斯 混合模型和深度神经网络 (gaussian mixture modeldeep neural network, GMM-DNN) 构建混合分类 器,其分类性能优于 SVM、MLP(multi-layer perception)、GMM 和 DNN,并且在嘈杂谈话背景下, 情感分类效果良好。 Sagha 等 [75] 以 OpenSMILE 提取 384 个特征为 基于核典型相关分析的域自适应方法的输入,在 EMODB、SAVEE、EMOVO 和 Polish 等 4 个不同 语言的语音数据库上实现跨语料库迁移学习,学 习速度快且有效克服过拟合,明显降低陷入局部 最小值的风险。 以上算法均针对语音信号来提升情感分类准 确性。此外,融合其他模态的特征,如面部表 情 [2] 、姿态和生理信号[1] ,可提升情感分类的鲁棒 第 1 期 高庆吉,等:语音情感识别研究综述 ·5·