第17卷第5期 智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202112056 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20220617.1819.008.html 心理学视角下的自动表情识别 颜文靖,蒋柯,傅小兰2 (1.温州医科大学精神医学学院浙江省阿尔茨海默病研究重点实验室,渐江温州325015,2.中国科学院心理 研究所脑与认知科学国家重点实验室,北京100101:3.中国科学院大学心理学系,北京100049) 摘要:自动表情识别是心理学与计算机科学等深度交叉的前沿领域。情绪心理学、模式识别、情感计算等领 域的研究者发展表情识别相关的理论、数据库和算法,极大地推动了自动表情识别技术的进步。文章基于心理 学视角,结合我们前期开展的相关工作,首先梳理自动表情识别的心理学基础、情绪的面部表达方式、表情数 据的演化、表情样本的标注等方面的理论观点与实践进展,然后分析指出自动表情识别面临的主要问题,最后 基于预测加工理论的建构观点,提出注重交互过程中的表情“理解”,有望进一步提高自动表情识别的有效性, 并预期这可能是自动表情识别研究的未来发展方向。 关键词:自动表情识别:基本情绪理论:情绪维度理论:表情数据库;建构论;情绪标注:微表情;面部动作 中图分类号:TP202:F407 文献标志码:A文章编号:1673-4785(2022)05-1039-15 中文引用格式:颜文靖,蒋柯,傅小兰.心理学视角下的自动表情识别.智能系统学报,2022,17(5):1039-1053. 英文引用格式:YAN Wenjing,JIANG Ke,,FU Xiaolan..Automatic facial expression recognition from a psychological perspective. CAAI transactions on intelligent systems,2022,17(5):1039-1053. Automatic facial expression recognition from a psychological perspective YAN Wenjing',JIANG Ke',FU Xiaolan23 (1.School of Mental Health,Key Laboratory of Alzheimer's Disease of Zhejiang Province,Wenzhou Medical University,Wenzhou 325015,China;2.State Key Laboratory of Brain and Cognitive Science,Institute of Psychology,Chinese Academy of Sciences, Beijing 100101,China:3.Department of Psychology,University of the Chinese Academy of Sciences,Beijing 100049,China) Abstract:Automatic facial expression recognition is an interdisciplinary and frontier field,spanning psychology,com- puter science,and other research areas.Researchers in the fields of emotional psychology,pattern recognition,and af- fective computing develop expression recognition-related theories,databases,and algorithms,greatly progressing the automatic facial expression technologies.Combining the previous related work,the article first discusses the theoretical perspectives and practical advances in the psychological basis of automatic facial expression recognition,facial expres- sion approaches to emotions,facial expression database development,and emotion annotations.Then,it analyzes and highlights the primary issues in automatic expression recognition.Finally,based on the constructivism of the predictive processing theory,it proposes that attention must be paid to"understanding"the facial expressions in interpersonal inter- action to further improve the effectiveness of automatic facial expression recognition and be the future research direc- tion. Keywords:automatic expression recognition;basic emotion theory;dimension theory in emotion;database of facial ex- pressions,constructivism;emotion annotation;micro-expressions;facial actions 如果机器能够像人类一样,通过识别表情来 为实现这个美好的愿望,几十年来心理学与计算 了解他人的情绪状态,会是件多么美妙的事情。 机科学等领域的研究者付出了巨大的努力,构建 理论、采集数据和研发算法,推动自动表情识别 收稿日期:2021-12-30.网络出版日期:2022-06-20. 研究不断取得新进展。心理学在为自动表情识别 基金项目:温州市科技计划项目(G20210027). 通信作者:傅小兰.E-mail:fuxl@psych.ac.cn 提供思路和启发的同时,其情绪心理学分支也得
DOI: 10.11992/tis.202112056 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220617.1819.008.html 心理学视角下的自动表情识别 颜文靖1 ,蒋柯1 ,傅小兰2,3 (1. 温州医科大学 精神医学学院 浙江省阿尔茨海默病研究重点实验室, 浙江 温州 325015; 2. 中国科学院心理 研究所 脑与认知科学国家重点实验室, 北京 100101; 3. 中国科学院大学 心理学系, 北京 100049) 摘 要:自动表情识别是心理学与计算机科学等深度交叉的前沿领域。情绪心理学、模式识别、情感计算等领 域的研究者发展表情识别相关的理论、数据库和算法,极大地推动了自动表情识别技术的进步。文章基于心理 学视角,结合我们前期开展的相关工作,首先梳理自动表情识别的心理学基础、情绪的面部表达方式、表情数 据的演化、表情样本的标注等方面的理论观点与实践进展,然后分析指出自动表情识别面临的主要问题,最后 基于预测加工理论的建构观点,提出注重交互过程中的表情“理解”,有望进一步提高自动表情识别的有效性, 并预期这可能是自动表情识别研究的未来发展方向。 关键词:自动表情识别;基本情绪理论;情绪维度理论;表情数据库;建构论;情绪标注;微表情;面部动作 中图分类号:TP202; F407 文献标志码:A 文章编号:1673−4785(2022)05−1039−15 中文引用格式:颜文靖, 蒋柯, 傅小兰. 心理学视角下的自动表情识别 [J]. 智能系统学报, 2022, 17(5): 1039–1053. 英文引用格式:YAN Wenjing, JIANG Ke, FU Xiaolan. Automatic facial expression recognition from a psychological perspective[J]. CAAI transactions on intelligent systems, 2022, 17(5): 1039–1053. Automatic facial expression recognition from a psychological perspective YAN Wenjing1 ,JIANG Ke1 ,FU Xiaolan2,3 (1. School of Mental Health, Key Laboratory of Alzheimer’s Disease of Zhejiang Province, Wenzhou Medical University, Wenzhou 325015, China; 2. State Key Laboratory of Brain and Cognitive Science, Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China; 3. Department of Psychology, University of the Chinese Academy of Sciences, Beijing 100049, China) Abstract: Automatic facial expression recognition is an interdisciplinary and frontier field, spanning psychology, computer science, and other research areas. Researchers in the fields of emotional psychology, pattern recognition, and affective computing develop expression recognition-related theories, databases, and algorithms, greatly progressing the automatic facial expression technologies. Combining the previous related work, the article first discusses the theoretical perspectives and practical advances in the psychological basis of automatic facial expression recognition, facial expression approaches to emotions, facial expression database development, and emotion annotations. Then, it analyzes and highlights the primary issues in automatic expression recognition. Finally, based on the constructivism of the predictive processing theory, it proposes that attention must be paid to “understanding” the facial expressions in interpersonal interaction to further improve the effectiveness of automatic facial expression recognition and be the future research direction. Keywords: automatic expression recognition; basic emotion theory; dimension theory in emotion; database of facial expressions; constructivism; emotion annotation; micro-expressions; facial actions 如果机器能够像人类一样,通过识别表情来 了解他人的情绪状态,会是件多么美妙的事情。 为实现这个美好的愿望,几十年来心理学与计算 机科学等领域的研究者付出了巨大的努力,构建 理论、采集数据和研发算法,推动自动表情识别 研究不断取得新进展。心理学在为自动表情识别 提供思路和启发的同时,其情绪心理学分支也得 收稿日期:2021−12−30. 网络出版日期:2022−06−20. 基金项目:温州市科技计划项目(G20210027). 通信作者:傅小兰. E-mail:fuxl@psych.ac.cn. 第 17 卷第 5 期 智 能 系 统 学 报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022
第17卷 智能系统学报 ·1040· 以蓬勃发展,并影响着自动表情识别的未来发展 理反应与行为表现)(见图1):基本情绪能够被 方向。我们前期围绕情绪的相关问题(尤其是微 全人类识别。以这些观点为核心的理论被称为基 表情),在心理学和计算机科学等学科交叉领域 本情绪理论。自动表情识别领域中的工作大多数 开展工作,考察了情绪与表情的关系、微表情的 是根据基本情绪理论进行情绪分类的。 行为特点,构建了3个微表情数据库和一个伪装 表情数据库,研发微表情和伪装表情自动识别与 检测算法等。 虽然自动表情识别已经取得了重大进展,但 是依然存在着一些问题,导致实际应用中存在困 难。我们在研究过程中也产生了有关情绪的面部 (a)中性 b)高兴 (c)惊讶 (d轻蔑 表达及数据标注等方面的困惑,并进行了反思。本 文基于心理学视角,首先系统地梳理自动表情识别 的心理学基础、情绪的面部表达方式、表情数据 的演化、表情样本的标注方法等方面的理论观点 与实践进展,然后分析指出自动表情识别面临的 主要问题,最后基于心理学的建构论,提出在人 (e)悲伤 ()恐惧 (g)厌恶 (h)愤怒 际交互过程中进行表情“理解”有望进一步提高自 动表情识别的有效性,并预期这可能是自动表情 图1 基本情绪对应的原型表情示例(模特为本文第一作者) Fig.1 An example of the prototypical facial expressions 识别研究的未来发展方向。本文是一篇从心理学 corresponding to the basic emotion theory (the mod- 视角下思考自动表情识别的理论性文章,而非综 el is the first author of this paper) 述性或实证性文章。主要梳理表情识别的心理学 基本情绪理论认为每种情绪都是一个整体。 基础、情绪的面部表达方式、表情数据的演化、表 例如,高兴意味着我们内心有愉悦的体验,身体上 情样本的标注等方面的理论观点与实践进展,对 有心跳加速等生理活动,并可能还有对应的外显 计算机识别出的“情绪”进行心理学视角的思考。 动作,如手舞足蹈、眉飞色舞等。这是一个封装 1表情识别的心理学基础 好的系统,一旦触动某种情绪则会引发一系列完 整、特定的反应B,。基本情绪理论顺应了人类认 情绪心理学中两大流派一基本情绪理论 识活动的一般趋势:对纷繁复杂的事物进行分 (basic emotion theory)和维度论(dimension ap- 析,形成清晰的、结构化的知识体系。使用这些 proach)一几乎是所有自动表情识别的心理学 简洁的类别标签,我们可以把复杂的情绪过程与 基础。其中基本情绪理论处于主流地位,因为它 性格特征归属为简单的类别,这不仅与多数人的 有清晰的理论框架,结构化的系统,且与人们的 生活体验相契合,也便于人们理解这些心理现象 常识体验相吻合。 并进行沟通交流,同时也为机器自动表情识别提 1.1基本情绪理论 供了一个结构化的理论框架。 早在1872年,达尔文在《人类与动物的表情》 根据基本情绪理论,不同的情绪类型是离散 一书中对表情进行了分类。20世纪60至70年 的,相互独立的,有特定的诱发原因、主观体验 代,Ekman'2-总结了基本情绪具有的11个特点, 生理唤醒和行为反应,那么主观的情绪体验一定 包括特定的普遍性信号(distinctive universal sig 会反映在生理与行为上,即个体会表达出可观测 nal)、灵长类动物共有(present in other primates)、特 的信号以区分内在的情绪体验,内在情绪体验与 定的生理反应(distinctive physiological response)、 外在信号的关系是有效的(valid)、特异的(specif- 特定的普遍诱发事件(distinctive universals in ante- ic)和普遍的(generalized)。所以,通过提取面部 cedent events)、一致的情绪性反应(coherence 动作、肢体动作T、语言内容)、音频信号例、外 among emotional response)、特定的主观感受(dis- 周生理变化(如心率、血压、皮肤电),和中枢神 tinctive subjective feeling)等。Ekman等认为,人类 经变化(如脑电波、血氧消耗))等特征,研究者 拥有几类基本情绪,诸如高兴、悲伤、厌恶、愤 就可以推测个体内在的主观情绪体验。 怒、惊讶、恐惧等;这几类基本情绪是离散的、相 1.2情绪的维度论 互独立的;每类情绪都有其特定的主观体验、生 情绪的维度论由来已久。一个经典的情绪维
以蓬勃发展,并影响着自动表情识别的未来发展 方向。我们前期围绕情绪的相关问题(尤其是微 表情),在心理学和计算机科学等学科交叉领域 开展工作,考察了情绪与表情的关系、微表情的 行为特点,构建了 3 个微表情数据库和一个伪装 表情数据库,研发微表情和伪装表情自动识别与 检测算法等。 虽然自动表情识别已经取得了重大进展,但 是依然存在着一些问题,导致实际应用中存在困 难。我们在研究过程中也产生了有关情绪的面部 表达及数据标注等方面的困惑,并进行了反思。本 文基于心理学视角,首先系统地梳理自动表情识别 的心理学基础、情绪的面部表达方式、表情数据 的演化、表情样本的标注方法等方面的理论观点 与实践进展,然后分析指出自动表情识别面临的 主要问题,最后基于心理学的建构论,提出在人 际交互过程中进行表情“理解”有望进一步提高自 动表情识别的有效性,并预期这可能是自动表情 识别研究的未来发展方向。本文是一篇从心理学 视角下思考自动表情识别的理论性文章,而非综 述性或实证性文章。主要梳理表情识别的心理学 基础、情绪的面部表达方式、表情数据的演化、表 情样本的标注等方面的理论观点与实践进展,对 计算机识别出的“情绪”进行心理学视角的思考。 1 表情识别的心理学基础 情绪心理学中两大流派−基本情绪理论 (basic emotion theory)和维度论(dimension approach)−几乎是所有自动表情识别的心理学 基础。其中基本情绪理论处于主流地位,因为它 有清晰的理论框架,结构化的系统,且与人们的 常识体验相吻合。 1.1 基本情绪理论 早在 1872 年,达尔文在《人类与动物的表情》 一书中对表情进行了分类[1]。20 世纪 60 至 70 年 代,Ekman[2-3] 总结了基本情绪具有的 11 个特点, 包括特定的普遍性信号(distinctive universal signal)、灵长类动物共有 (present in other primates)、特 定的生理反应 (distinctive physiological response)、 特定的普遍诱发事件 (distinctive universals in antecedent events)、一致的情绪性反应(coherence among emotional response)、特定的主观感受(distinctive subjective feeling)等。Ekman 等认为,人类 拥有几类基本情绪,诸如高兴、悲伤、厌恶、愤 怒、惊讶、恐惧等;这几类基本情绪是离散的、相 互独立的;每类情绪都有其特定的主观体验、生 理反应与行为表现[2] (见图 1);基本情绪能够被 全人类识别。以这些观点为核心的理论被称为基 本情绪理论。自动表情识别领域中的工作大多数 是根据基本情绪理论进行情绪分类的[4]。 (a) 中性 (b) 高兴 (c) 惊讶 (d) 轻蔑 (e) 悲伤 (f) 恐惧 (g) 厌恶 (h) 愤怒 图 1 基本情绪对应的原型表情示例 (模特为本文第一作者) Fig. 1 An example of the prototypical facial expressions corresponding to the basic emotion theory (the model is the first author of this paper) 基本情绪理论认为每种情绪都是一个整体。 例如,高兴意味着我们内心有愉悦的体验,身体上 有心跳加速等生理活动,并可能还有对应的外显 动作,如手舞足蹈、眉飞色舞等。这是一个封装 好的系统,一旦触动某种情绪则会引发一系列完 整、特定的反应[3,5]。基本情绪理论顺应了人类认 识活动的一般趋势:对纷繁复杂的事物进行分 析,形成清晰的、结构化的知识体系。使用这些 简洁的类别标签,我们可以把复杂的情绪过程与 性格特征归属为简单的类别,这不仅与多数人的 生活体验相契合,也便于人们理解这些心理现象 并进行沟通交流,同时也为机器自动表情识别提 供了一个结构化的理论框架。 根据基本情绪理论,不同的情绪类型是离散 的,相互独立的,有特定的诱发原因、主观体验、 生理唤醒和行为反应,那么主观的情绪体验一定 会反映在生理与行为上,即个体会表达出可观测 的信号以区分内在的情绪体验,内在情绪体验与 外在信号的关系是有效的(valid)、特异的(specific)和普遍的(generalized)。所以,通过提取面部 动作[6] 、肢体动作[7] 、语言内容[8] 、音频信号[9] 、外 周生理变化(如心率、血压、皮肤电)[10] ,和中枢神 经变化(如脑电波、血氧消耗)[11] 等特征,研究者 就可以推测个体内在的主观情绪体验。 1.2 情绪的维度论 情绪的维度论由来已久。一个经典的情绪维 第 17 卷 智 能 系 统 学 报 ·1040·
·1041· 颜文靖,等:心理学视角下的自动表情识别 第5期 度论定义是:可伴随特定生理活动的正性或负性 最近Daniel Cordaro和Dacher Keltner(两人都 体验。维度取向曾经一度占据着情绪理论的主 曾是Ekman的学生)等&19进行了一系列跨文化 流。早在19世纪末,“心理学之父”冯特就认为情 研究,扩展了基本情绪的清单。他们使用情绪编 绪是可以通过愉快-不愉快、激动-平静、紧张-松 码范式,系统地分析来自5种不同文化背景个体 弛3个维度来描述的。Osgood!通过研究发现, 的22种情绪表现,提出了情绪的国际核心模式 个体在对各种刺激进行判断时,都会关注其在价 (international core patterns,.ICPs),即,在不同文化 值、活力和力量这3个因素上的语义差别,而这 中存在着22种普遍的面部情绪表达规律,而同时 些语义差别因素在本质上是情感性的,是对刺激 也会受到文化的一些影响。除了最初的6种情绪外, 进行分类的基础。Mehrabian等提出了情绪状 这些研究还提供了在面部和声音表达中出现的情 态的“愉悦度-唤醒度-支配度”三维度模型(pleas-. 绪如娱乐、敬畏、满足、欲望、尴尬、痛苦、解脱和 antness-arousal--dominance.,PAD)。在对PAD模型 同情等情绪的证据。表情类型增加到20多个,对 的深入研究中,Russel发现,情绪的支配度更 表情数据库的建立以及自动表情识别的准确率都 多地与其认知活动有关,愉悦和唤醒两个维度就 提出了新的挑战。 可以解释绝大部分情绪变异。2008年,国内引入 2.2微表情和伪装表情 了PAD情绪量表,它可以从愉悦度、激活度和优 微表情是人们隐藏或抑制自己的真实情绪时 势度上评定心境或情绪状态6。Watson等1)采 出现非常迅速泄露的面部动作2022。研究者以时 取自陈式情绪研究方法,提出积极-消极情感模 长(根据微表情快速的特点)对微表情进行操作 型(PANA),他们认为积极情感(positive affect, 性定义。现在越来越多的研究者将小于500s PA)和消极情感(negative affect,.NA)是两个相对 的表情定义为微表情四。微表情已成为自动表情 独立的、基本的维度。 识别研究的新热点,因为人们普遍认为微表情泄 如果使用情绪维度来标注表情样本,并不需 露了个体的真实表情,能够反映其真实情绪。 要给出一个明确的情绪类别标签;情感的维度模 早在《人类与动物的表情》一书中,达尔文 型似乎可以在连续的尺度上对每种情绪强度的微 就开始关注难以抑制的情绪表达,21。弗洛伊德 小变化进行编码。也有很多学者试图将维度论和 也提出人们的情绪都会以某种形式表达出来4。 基本情绪理论结合,将基本表情放在两三个维度 Haggard等21在寻找治疗师和病人之间的非言语 形成的坐标系中的合适位置,如情绪的环形模型 交流特征、观察心理治疗动态图片时,发现了一 (circumplex model of affect)。不过,每一种情绪 种“微小瞬间表情(micro-momentary facial expres- 都是非常复杂的,虽然我们可以用几个维度来表 sions)”,并认为其与压抑和自我防御机制有关。 达某种情绪的主要特点,但却无法充分地解释或 神经心理学的研究发现,自主表情和非自主表情 理解这种情绪。 分别受锥体束(pyramidal tract)和外锥体束(ex- 2情绪的面部表达方式 trapyramidal tract)控制21。因此,Ekman等21,2假 设微表情是自主表情和非自主表情之间对抗的 显然,6种基本情绪似乎不足以涵盖我们复杂 产物。 多样的情绪与对应的表情表达,而且人类擅长伪 我们前期在实验室里,通过诱发被试(心理 装,表情与情绪有时并不能很好地对应。此外, 学实验参与者)的情绪(非自主的),同时要求其 表情还受到特定社会文化条件下的展示规则(dis 伪装自己的表情(自主的),探索微表情的诱发 play rule)的影响。因此,除了研究基本表情类别, 方法和出现条件2。我们基于收集的数据,拟合 许多研究者也开始关注微表情、复杂表情和结合 不同条件下微表情表达的特点,描述了自然诱发 其他线索的表情。 的微表情的时间和空间特征。结合前人的研究 2.1基本表情类型 与假设,我们总结了微表情的表达机制,提出微 基本情绪理论把情绪分成几个基本类别,诸 表情既可能是个体在自主抑制其情绪表达时真实 如:高兴、悲伤、惊讶、恐惧、厌恶、愤怒等四。这 情绪的泄露,也可能是个体在正常表达真实表情 6种基本情绪似乎是泾渭分明的,且适用于所有 后因主动抑制而终止的真实情绪表达(见图2)。 人。但是,科学研究和实践应用都表明,依靠6种 至于微表情识别方面的研究,不是本文的关注 基本情绪的分类方式无法涵盖和解释复杂的情绪 点,感兴趣的读者可以查阅已经发表的综述性 现象。 文章
度论定义是:可伴随特定生理活动的正性或负性 体验[12]。维度取向曾经一度占据着情绪理论的主 流。早在 19 世纪末,“心理学之父”冯特就认为情 绪是可以通过愉快–不愉快、激动–平静、紧张–松 弛 3 个维度来描述的。Osgood[13] 通过研究发现, 个体在对各种刺激进行判断时,都会关注其在价 值、活力和力量这 3 个因素上的语义差别,而这 些语义差别因素在本质上是情感性的,是对刺激 进行分类的基础。Mehrabian 等 [14] 提出了情绪状 态的“愉悦度–唤醒度–支配度”三维度模型(pleasantness-arousal-dominance,PAD)。在对 PAD 模型 的深入研究中,Russell[15] 发现,情绪的支配度更 多地与其认知活动有关,愉悦和唤醒两个维度就 可以解释绝大部分情绪变异。2008 年,国内引入 了 PAD 情绪量表,它可以从愉悦度、激活度和优 势度上评定心境或情绪状态[16]。Watson 等 [17] 采 取自陈式情绪研究方法,提出积极–消极情感模 型(PANA),他们认为积极情感(positive affect, PA)和消极情感(negative affect,NA)是两个相对 独立的、基本的维度。 如果使用情绪维度来标注表情样本,并不需 要给出一个明确的情绪类别标签;情感的维度模 型似乎可以在连续的尺度上对每种情绪强度的微 小变化进行编码。也有很多学者试图将维度论和 基本情绪理论结合,将基本表情放在两三个维度 形成的坐标系中的合适位置,如情绪的环形模型 (circumplex model of affect) [15]。不过,每一种情绪 都是非常复杂的,虽然我们可以用几个维度来表 达某种情绪的主要特点,但却无法充分地解释或 理解这种情绪。 2 情绪的面部表达方式 显然,6 种基本情绪似乎不足以涵盖我们复杂 多样的情绪与对应的表情表达,而且人类擅长伪 装,表情与情绪有时并不能很好地对应。此外, 表情还受到特定社会文化条件下的展示规则(display rule)的影响。因此,除了研究基本表情类别, 许多研究者也开始关注微表情、复杂表情和结合 其他线索的表情。 2.1 基本表情类型 基本情绪理论把情绪分成几个基本类别,诸 如:高兴、悲伤、惊讶、恐惧、厌恶、愤怒等[2]。这 6 种基本情绪似乎是泾渭分明的,且适用于所有 人。但是,科学研究和实践应用都表明,依靠 6 种 基本情绪的分类方式无法涵盖和解释复杂的情绪 现象。 最近 Daniel Cordaro 和 Dacher Keltner(两人都 曾是 Ekman 的学生)等[18-19] 进行了一系列跨文化 研究,扩展了基本情绪的清单。他们使用情绪编 码范式,系统地分析来自 5 种不同文化背景个体 的 22 种情绪表现,提出了情绪的国际核心模式 (international core patterns, ICPs),即,在不同文化 中存在着 22 种普遍的面部情绪表达规律,而同时 也会受到文化的一些影响。除了最初的 6 种情绪外, 这些研究还提供了在面部和声音表达中出现的情 绪如娱乐、敬畏、满足、欲望、尴尬、痛苦、解脱和 同情等情绪的证据。表情类型增加到 20 多个,对 表情数据库的建立以及自动表情识别的准确率都 提出了新的挑战。 2.2 微表情和伪装表情 微表情是人们隐藏或抑制自己的真实情绪时 出现非常迅速泄露的面部动作[20-22]。研究者以时 长(根据微表情快速的特点)对微表情进行操作 性定义。现在越来越多的研究者将小于 500 ms 的表情定义为微表情[22]。微表情已成为自动表情 识别研究的新热点,因为人们普遍认为微表情泄 露了个体的真实表情,能够反映其真实情绪。 早在《人类与动物的表情》一书中,达尔文 就开始关注难以抑制的情绪表达[1,23]。弗洛伊德 也提出人们的情绪都会以某种形式表达出来[24]。 Haggard 等 [24] 在寻找治疗师和病人之间的非言语 交流特征、观察心理治疗动态图片时,发现了一 种“微小瞬间表情(micro-momentary facial expressions)”,并认为其与压抑和自我防御机制有关。 神经心理学的研究发现,自主表情和非自主表情 分别受锥体束(pyramidal tract)和外锥体束(extrapyramidal tract)控制[25]。因此,Ekman 等 [21,26] 假 设微表情是自主表情和非自主表情之间对抗的 产物。 我们前期在实验室里,通过诱发被试(心理 学实验参与者)的情绪(非自主的),同时要求其 伪装自己的表情(自主的),探索微表情的诱发 方法和出现条件[22]。我们基于收集的数据,拟合 不同条件下微表情表达的特点,描述了自然诱发 的微表情的时间和空间特征。结合前人的研究 与假设,我们总结了微表情的表达机制,提出微 表情既可能是个体在自主抑制其情绪表达时真实 情绪的泄露,也可能是个体在正常表达真实表情 后因主动抑制而终止的真实情绪表达(见图 2)。 至于微表情识别方面的研究,不是本文的关注 点,感兴趣的读者可以查阅已经发表的综述性 文章。 ·1041· 颜文靖,等:心理学视角下的自动表情识别 第 5 期
第17卷 智能系统学报 ·1042· 自主神经通路 抑制信号 表情预表达 泄露 (大脑皮层运动区) 微表情 风说 险谎 非自主 情等 神经通路 表情预表达 (大脑皮层运动区) 微表情 终 自主神经通路 抑制信号 情绪产生 表情表达准备 微表情的产生 图2微表情的产生机制 Fig.2 The production mechanism of micro-expressions 2.3复杂表情 应的表达信号交织在一起。Keltner等B认为,当 一些学者关注“复杂表情”,以期能更好地解 考虑到不同的模态时,我们就应该认可存在24种 释“不太标准”的表情。一篇发表在PNAS上的颇 情绪状态的独特表达。 有影响力的文章对复杂表情的定义是:复杂表情 既然情绪表达是多方面的,那么在表情提供 是由基本表情组合而成的”。实验者要求参与者 的信息不充分的情况下,就可以加入其他通道的 学习原型表情,并且努力摆出原型表情的组合, 信息,如肢体动作、皮肤温度、语言内容、语气语 然后筛选出可以明确识别表情的图片。在此基础 调、外周生理信号和中枢神经活动等。理论上而 上,研究者对这些复杂表情的类别进行分类,得 言,多模态信息互相补充可以得到更加完整的 到了较高的准确率,认为该实验证明了22种情绪 更加确定的信号,因此应能获得更好的情绪识别 类别的表达和识别是一致的。 结果,而很多实证研究也证明了这一点。如果多 Li等2从社交网络中收集了表情图片,招募 模态信息能够让我们更准确地识别情绪,那么, 315名参与者对数以万计的图片进行标注,筛选 对机器来说,只要能获得足够的多模态数据,就 出多标签的表情图片,建立了一个复杂表情数据 能够通过深度学习,建立良好的情绪预测模型。 库RAF-ML。该数据库的标注采用的是6种基本 情绪的标签。如果某个标签的选择人数超过20%, 3表情数据的演化 则标定为存在该种情绪:如果有2个以上的标签 从最初的6种基本表情到更多类型的表情, 有20%人选择,则定义为多标签(复杂)情绪。这 从摆拍表情到自然表情,从实验室场景中的表情 个研究使用的是复杂表情的“操作性定义”。 到自然场景(in-the-wild)中的表情,从静态表情图 值得一提的是,虽然关于复杂情绪与表情的 片到动态表情视频,从表情的单一面部动作模式 研究工作大多是在基本情绪理论框架下开展的, 到表情的多模态信息,从小样本到大样本,表情 但是该理论的领袖人物Ekman早期并不认同“复 数据库的建设取得了巨大的进展,这是情绪心理 杂情绪”这个概念。Ekman认为在生理反应与行 学家和情感计算科学家共同努力的结果。 为表达上缺乏存在复杂表情的证据。在他看来, 研究者提升机器识别人类情绪的准确性的工 所谓复杂的情绪只是多个基本表情的序列呈现, 作主要集中在基于表情数据库训练出一个计算快 是混合(mixed)而非融合(blend)。 速的、鲁棒性高的模型43,努力使机器能够基于 2.4表情的多模态信息 表情准确分类表达者内心情绪的状态。显而易见 在过去的20年里,对情绪识别的研究已经超 的是,自动表情识别的准确性在很大程度上受制 越了对6种情绪的静态描述,开启了一种多模态 于数据库中样本标注的质量。 的、动态的行为模式,涉及面部动作、发声、身体 3.1从摆拍表情到自发的自然表情 运动、凝视、手势、头部运动、触摸,甚至气味 早期的表情数据库里大多是摆拍(posed)的 的描述情绪表达的方式。例如,凝视模式和头部 原型表情,如CK+、JAFFE7、MUG、RaFD9。 动作与尴尬0、自豪和敬畏B的体验,以及相 近年来的表情数据库更加关注表情样本的自发性
自主神经通路 自主神经通路 表情预表达 (大脑皮层运动区) 表情预表达 (大脑皮层运动区) 抑制信号 抑制信号 泄露 终止 非自主 神经通路 情绪产生 表情表达准备 情绪 微表情 微表情 微表情的产生 高 风说 险谎 情等 景 ( ) 图 2 微表情的产生机制 Fig. 2 The production mechanism of micro-expressions 2.3 复杂表情 一些学者关注“复杂表情”,以期能更好地解 释“不太标准”的表情。一篇发表在 PNAS 上的颇 有影响力的文章对复杂表情的定义是:复杂表情 是由基本表情组合而成的[27]。实验者要求参与者 学习原型表情,并且努力摆出原型表情的组合, 然后筛选出可以明确识别表情的图片。在此基础 上,研究者对这些复杂表情的类别进行分类,得 到了较高的准确率,认为该实验证明了 22 种情绪 类别的表达和识别是一致的。 Li 等 [28] 从社交网络中收集了表情图片,招募 315 名参与者对数以万计的图片进行标注,筛选 出多标签的表情图片,建立了一个复杂表情数据 库 RAF-ML。该数据库的标注采用的是 6 种基本 情绪的标签。如果某个标签的选择人数超过 20%, 则标定为存在该种情绪;如果有 2 个以上的标签 有 20% 人选择,则定义为多标签(复杂)情绪。这 个研究使用的是复杂表情的“操作性定义”。 值得一提的是,虽然关于复杂情绪与表情的 研究工作大多是在基本情绪理论框架下开展的, 但是该理论的领袖人物 Ekman 早期并不认同“复 杂情绪”这个概念。Ekman[2] 认为在生理反应与行 为表达上缺乏存在复杂表情的证据。在他看来, 所谓复杂的情绪只是多个基本表情的序列呈现, 是混合(mixed)而非融合(blend)。 2.4 表情的多模态信息 在过去的 20 年里,对情绪识别的研究已经超 越了对 6 种情绪的静态描述,开启了一种多模态 的、动态的行为模式,涉及面部动作、发声、身体 运动、凝视、手势、头部运动、触摸,甚至气味[29] 的描述情绪表达的方式。例如,凝视模式和头部 动作与尴尬[30] 、自豪[31] 和敬畏[32] 的体验,以及相 应的表达信号交织在一起。Keltner 等 [33] 认为,当 考虑到不同的模态时,我们就应该认可存在 24 种 情绪状态的独特表达。 既然情绪表达是多方面的,那么在表情提供 的信息不充分的情况下,就可以加入其他通道的 信息,如肢体动作、皮肤温度、语言内容、语气语 调、外周生理信号和中枢神经活动等。理论上而 言,多模态信息互相补充可以得到更加完整的、 更加确定的信号,因此应能获得更好的情绪识别 结果,而很多实证研究也证明了这一点。如果多 模态信息能够让我们更准确地识别情绪,那么, 对机器来说,只要能获得足够的多模态数据,就 能够通过深度学习,建立良好的情绪预测模型。 3 表情数据的演化 从最初的 6 种基本表情到更多类型的表情, 从摆拍表情到自然表情,从实验室场景中的表情 到自然场景(in-the-wild)中的表情,从静态表情图 片到动态表情视频,从表情的单一面部动作模式 到表情的多模态信息,从小样本到大样本,表情 数据库的建设取得了巨大的进展,这是情绪心理 学家和情感计算科学家共同努力的结果。 研究者提升机器识别人类情绪的准确性的工 作主要集中在基于表情数据库训练出一个计算快 速的、鲁棒性高的模型[34-35] ,努力使机器能够基于 表情准确分类表达者内心情绪的状态。显而易见 的是,自动表情识别的准确性在很大程度上受制 于数据库中样本标注的质量。 3.1 从摆拍表情到自发的自然表情 早期的表情数据库里大多是摆拍(posed)的 原型表情,如 CK+[36] 、JAFFE[37] 、MUG[38] 、RaFD[39]。 近年来的表情数据库更加关注表情样本的自发性 第 17 卷 智 能 系 统 学 报 ·1042·
·1043· 颜文靖,等:心理学视角下的自动表情识别 第5期 (spontaneous)和自然性。有些研究者通过材料刺 点,又不干扰其情绪体验,我们要求被试在有情 激或者做某些任务来实现情绪的诱发,如DISFA、 绪反应时进行按键操作,以便于在编码时过滤无 Belfast Databasela、MMa、Multi-PIE等。 情绪意义的面部动作。在观看情绪视频结束后, 构建微表情数据库也同样经历了从摆拍表情 收集被试情绪体验的主观报告(见图3)。整理编 到自然诱发表情的过程。我们过去所做的微表 码之后,构建了CASME系列数据库s-47。使用类 情数据库,就是在实验室里,采用情绪性视频作 似的方法,我们也构建了伪装表情数据库MFED。 为诱发材料,通过让参与者观看视频来激发参与 当然我们也明确地意识到,这些在实验室里诱发 者的情绪和表情。为了更好地记录被试情绪激发 出的表情样本依然缺乏生态效度。 目的 激发伪装动机 情绪唤醒 采集(微表情) 记录表情对应的情绪 阶段 指导语操纵 观看情绪性视频 拍摄观看过程 对情绪进行主观评价 图3微表情诱发范式流程 Fig.3 The elicitation approach for micro-expressions 既然实验室样本的生态效度不够,那么就有 效率和性能。心理学的研究也证明,动态表情能 必要高度关注现实场景(in-the-wild)中的自然表 够提供更多的有效信息,包括区分真实与伪装的 情。与在实验室里诱发得到的表情相比,现实场 表情51。例如,真实笑容的时长一般是在500~ 景中的自然表情在光照、脸部姿势、尺寸和面部 4000ms,而伪装笑容的时长则可能过长或过短5: 遮挡等方面都有很大的变化,因此对其分类更具 与非真实笑容相比,真实笑容的启动时长和恢复 挑战性,但在实际应用中也更为重要。当前很多 时长都更长5s。 数据库从网上(如网页、社交媒体、视频等)抓取 3.3从表情的单一面部动作模式到表情的多模 大量的表情图片,并假设它们是相对自然的(不 态信息 过这些图片中仍有不少是摆拍的),如EmotioNet9、 人类在现实应用中的情绪表达涉及到不同的 AffectNet、RAF-DBIs0。自2013年以来,FER2013 通道,而面部表情只是其中一种。所以,越来越 Emotion Recognition in the Wild(Emotiw )(51-521 多的多模态表情数据库被建构出来,如EU Emo- 等情感识别竞赛基于真实世界场景中收集的相对 tion Stimuluss7、BAUM-1、AFEW。其中,最常 充足的训练数据,这也促进了自动表情识别从实 见的是表情与声音结合的多模态数据库。例如, 验室场景到自然环境的过渡。 AFEW数据库包含了从不同电影中收集的视频片 3.2从静态表情图片到动态表情视频 段,这些视频片段具有自发的表情、各种头部姿势 在现实世界中,人们的表情是一个动态的过 遮挡和照明,有时间和多模态信息,提供了不同 程。一个完整的表情可区分为启动阶段(onset 环境条件下音频和视频方面的样本。多模态情感 phase)、高峰阶段(apex phase)和恢复阶段(offset 分析往往通过处理这些不同的模态来分析人类对 phase)。而静态表情图片仅仅展示了高峰阶段的 某一事物的观点(通常区分为积极的或消极的)网。 瞬间。 3.4从小样本到大样本 在基于静态表情图片的自动表情识别方法 在实验室里诱发个体的情绪进而采集表情样 中,特征表示只用当前单一图像的空间信息进行 本并进行标注,是一种效率较低的构建表情数据 编码,而在基于动态表情视频的识别方法中,则 库的方法,但具有较高的效度,可以较为明确地 会考虑输入表情序列中连续帧之间的时间关系。 区分情绪类型。这些数据库中模特的数量往往在 对序列(视频)数据进行识别已经成为一种趋势。 几十到几百人之间。 Lⅰ等向总结了不同类型的方法在动态数据上的相 为了满足深度学习的大数据需求,很多研究 对优势,包括代表空间和时间信息的能力、对训 者从网上抓取图片与视频作为样本。这些样本往 练数据大小和帧数的要求(可变或固定)、计算 往无法确定当事人自身的主观体验,而只能使用
(spontaneous)和自然性。有些研究者通过材料刺 激或者做某些任务来实现情绪的诱发,如 DISFA[40] 、 Belfast Database[41] 、MMI[42] 、Multi-PIE[43] 等。 构建微表情数据库也同样经历了从摆拍表情 到自然诱发表情的过程[44]。我们过去所做的微表 情数据库,就是在实验室里,采用情绪性视频作 为诱发材料,通过让参与者观看视频来激发参与 者的情绪和表情。为了更好地记录被试情绪激发 点,又不干扰其情绪体验,我们要求被试在有情 绪反应时进行按键操作,以便于在编码时过滤无 情绪意义的面部动作。在观看情绪视频结束后, 收集被试情绪体验的主观报告(见图 3)。整理编 码之后,构建了 CASME 系列数据库[45-47]。使用类 似的方法,我们也构建了伪装表情数据库 MFED[48]。 当然我们也明确地意识到,这些在实验室里诱发 出的表情样本依然缺乏生态效度。 目的 阶段 激发伪装动机 情绪唤醒 采集 (微表情) 记录表情对应的情绪 指导语操纵 观看情绪性视频 拍摄观看过程 对情绪进行主观评价 图 3 微表情诱发范式流程 Fig. 3 The elicitation approach for micro-expressions 既然实验室样本的生态效度不够,那么就有 必要高度关注现实场景(in-the-wild)中的自然表 情。与在实验室里诱发得到的表情相比,现实场 景中的自然表情在光照、脸部姿势、尺寸和面部 遮挡等方面都有很大的变化,因此对其分类更具 挑战性,但在实际应用中也更为重要。当前很多 数据库从网上(如网页、社交媒体、视频等)抓取 大量的表情图片,并假设它们是相对自然的(不 过这些图片中仍有不少是摆拍的),如 EmotioNet[49] 、 AffectNet[34] 、RAF-DB[50]。自 2013 年以来,FER2013 和 Emotion Recognition in the Wild(EmotiW) [51-52] 等情感识别竞赛基于真实世界场景中收集的相对 充足的训练数据,这也促进了自动表情识别从实 验室场景到自然环境的过渡。 3.2 从静态表情图片到动态表情视频 在现实世界中,人们的表情是一个动态的过 程。一个完整的表情可区分为启动阶段(onset phase)、高峰阶段(apex phase)和恢复阶段(offset phase)。而静态表情图片仅仅展示了高峰阶段的 一瞬间。 在基于静态表情图片的自动表情识别方法 中,特征表示只用当前单一图像的空间信息进行 编码,而在基于动态表情视频的识别方法中,则 会考虑输入表情序列中连续帧之间的时间关系。 对序列(视频)数据进行识别已经成为一种趋势。 Li 等 [6] 总结了不同类型的方法在动态数据上的相 对优势,包括代表空间和时间信息的能力、对训 练数据大小和帧数的要求(可变或固定)、计算 效率和性能。心理学的研究也证明,动态表情能 够提供更多的有效信息,包括区分真实与伪装的 表情[53]。例如,真实笑容的时长一般是在 500~ 4000 ms,而伪装笑容的时长则可能过长或过短[54] ; 与非真实笑容相比,真实笑容的启动时长和恢复 时长都更长[55-56]。 3.3 从表情的单一面部动作模式到表情的多模 态信息 人类在现实应用中的情绪表达涉及到不同的 通道,而面部表情只是其中一种。所以,越来越 多的多模态表情数据库被建构出来,如 EU Emotion Stimulus[57] 、BAUM-1[58] 、AFEW[51]。其中,最常 见的是表情与声音结合的多模态数据库。例如, AFEW 数据库包含了从不同电影中收集的视频片 段,这些视频片段具有自发的表情、各种头部姿势、 遮挡和照明,有时间和多模态信息,提供了不同 环境条件下音频和视频方面的样本。多模态情感 分析往往通过处理这些不同的模态来分析人类对 某一事物的观点(通常区分为积极的或消极的)[59]。 3.4 从小样本到大样本 在实验室里诱发个体的情绪进而采集表情样 本并进行标注,是一种效率较低的构建表情数据 库的方法,但具有较高的效度,可以较为明确地 区分情绪类型。这些数据库中模特的数量往往在 几十到几百人之间。 为了满足深度学习的大数据需求,很多研究 者从网上抓取图片与视频作为样本。这些样本往 往无法确定当事人自身的主观体验,而只能使用 ·1043· 颜文靖,等:心理学视角下的自动表情识别 第 5 期