第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201804029 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20180927.1124.004.html 触觉手势情感识别的超限学习方法 魏佳琪,刘华平2,王博文',孙富春 (1.河北工业大学省部共建电工装备可靠性与智能化国家重点实验室,天津300130,2.清华大学智能技术与 系统国家重点实验室,北京100084) 摘要:为了解决声音和图像情感识别的不足,提出一种新的情感识别方式:触觉情感识别。对CoST(corpus of social touch)数据集进行了一系列触觉情感识别研究,对CoST数据集进行数据预处理,提出一些关于触觉情感 识别的特征。利用极限学习机分类器探究不同手势下的情感识别,对14种手势下的3种情感(温柔、正常、暴 躁)进行识别,准确度较高,且识别速度快识别时间短。结果表明,手势的不同会影响情感识别的准确率,其中 手势“stroke”的识别效果在不同分类器下的分类精度均为最高,且有较好的分类精度,达到72.07%;极限学习 机作为触觉情感识别的分类器,具有较好的分类效果,识别速度快:有的手势本身对应着某种情感,从而影响 分类结果。 关键词:触觉:情感识别:极限学习机:特征提取:触摸手势:支持向量机:人机交互;机器学习 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2019)01-0127-07 中文引用格式:魏佳琪,刘华平,王博文,等.触觉手势情感识别的超限学习方法.智能系统学报,2019,141):127-133. 英文引用格式:VEI Jiagi,.LIU Huaping,VANG Bowen,etal.Extreme learning machine for emotion recognition of tactile ges- tures JI.CAAI transactions on intelligent systems,2019,14(1):127-133. Extreme learning machine for emotion recognition of tactile gestures WEI Jiaqi',LIU Huaping,WANG Bowen',SUN Fuchun2 (1.State Key Laboratory of Reliability and Intelligence of Electrical Equipment,Hebei University of Technology,Tianjin 300130, China;2.State Key Lab.of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:To overcome the deficiencies of sound and image emotion recognition,a new emotion recognition method, haptic emotion recognition,is proposed.A series of haptic emotion recognition studies on Corpus of Social Touch (CoST)datasets were performed.First,the CoST data was preprocessed,presenting some features about haptic emotion recognition.Using the extreme learning machine classifier to explore emotion recognition under different gestures,three kinds ofemotions,gentle,normal,and irritable,under 14 kinds of gestures,were identified with higher accuracy and a faster recognition speed(0.04 s).The results showed that differences in gestures will affect the accuracy ofemotion re- cognition,wherein the recognition effect of the gesture"stroke"is the highest in classification accuracy under different classifiers.This new method yielded better classification accuracy,reaching 72.07%.As a classifier of haptic emotion recognition,the extreme learning machine had better classification effect and faster recognition speed.Some gestures corresponded to certain emotions,which affected the classification results. Keywords:haptic;emotion recognition;extreme learning machine;feature extraction;touch gesture;support vector ma- chine;human-computer interaction;machine learning 随着计算机技术的发展,人机交互的领域愈 论是对人类还是机器人,触觉信息都是与周围环 加广泛,机器人的情感理解能力逐渐成为衡量智 境进行交互的重要媒介山。人们逐渐意识到,触 能程度的标准。触觉是最基本交互方式之一,无 觉可以用来调节情绪,增加人与人之间情感和信 收稿日期:2018-04-18.网络出版日期:2018-09-29. 任,帮助建立良好的人机关系。同时,越来越多 基金项目:国家自然科学基金重点项目(U1613212):河北省自 然科学基金项目(E2017202035). 的人使用触摸功能的机器人完成医疗以及远程数 通信作者:刘华平.E-mail:hpliu@tsinghua.edu.cn 学等任务
DOI: 10.11992/tis.201804029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20180927.1124.004.html 触觉手势情感识别的超限学习方法 魏佳琪1 ,刘华平2 ,王博文1 ,孙富春2 (1. 河北工业大学 省部共建电工装备可靠性与智能化国家重点实验室,天津 300130; 2. 清华大学 智能技术与 系统国家重点实验室,北京 100084) 摘 要:为了解决声音和图像情感识别的不足,提出一种新的情感识别方式:触觉情感识别。对 CoST(corpus of social touch) 数据集进行了一系列触觉情感识别研究,对 CoST 数据集进行数据预处理,提出一些关于触觉情感 识别的特征。利用极限学习机分类器探究不同手势下的情感识别,对 14 种手势下的 3 种情感 (温柔、正常、暴 躁) 进行识别,准确度较高,且识别速度快识别时间短。结果表明,手势的不同会影响情感识别的准确率,其中 手势“stroke”的识别效果在不同分类器下的分类精度均为最高,且有较好的分类精度,达到 72.07%;极限学习 机作为触觉情感识别的分类器,具有较好的分类效果,识别速度快;有的手势本身对应着某种情感,从而影响 分类结果。 关键词:触觉;情感识别;极限学习机;特征提取;触摸手势;支持向量机;人机交互;机器学习 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2019)01−0127−07 中文引用格式:魏佳琪, 刘华平, 王博文, 等. 触觉手势情感识别的超限学习方法[J]. 智能系统学报, 2019, 14(1): 127–133. 英文引用格式:WEI Jiaqi, LIU Huaping, WANG Bowen, et al. Extreme learning machine for emotion recognition of tactile gestures[J]. CAAI transactions on intelligent systems, 2019, 14(1): 127–133. Extreme learning machine for emotion recognition of tactile gestures WEI Jiaqi1 ,LIU Huaping2 ,WANG Bowen1 ,SUN Fuchun2 (1. State Key Laboratory of Reliability and Intelligence of Electrical Equipment, Hebei University of Technology, Tianjin 300130, China; 2. State Key Lab. of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: To overcome the deficiencies of sound and image emotion recognition, a new emotion recognition method, haptic emotion recognition, is proposed. A series of haptic emotion recognition studies on Corpus of Social Touch (CoST) datasets were performed. First, the CoST data was preprocessed, presenting some features about haptic emotion recognition. Using the extreme learning machine classifier to explore emotion recognition under different gestures, three kinds of emotions, gentle, normal, and irritable, under 14 kinds of gestures, were identified with higher accuracy and a faster recognition speed (0.04 s). The results showed that differences in gestures will affect the accuracy of emotion recognition, wherein the recognition effect of the gesture “stroke” is the highest in classification accuracy under different classifiers. This new method yielded better classification accuracy, reaching 72.07%. As a classifier of haptic emotion recognition, the extreme learning machine had better classification effect and faster recognition speed. Some gestures corresponded to certain emotions, which affected the classification results. Keywords: haptic; emotion recognition; extreme learning machine; feature extraction; touch gesture; support vector machine; human-computer interaction; machine learning 随着计算机技术的发展,人机交互的领域愈 加广泛,机器人的情感理解能力逐渐成为衡量智 能程度的标准。触觉是最基本交互方式之一,无 论是对人类还是机器人,触觉信息都是与周围环 境进行交互的重要媒介[1]。人们逐渐意识到,触 觉可以用来调节情绪,增加人与人之间情感和信 任,帮助建立良好的人机关系。同时,越来越多 的人使用触摸功能的机器人完成医疗以及远程数 学等任务。 收稿日期:2018−04−18. 网络出版日期:2018−09−29. 基金项目:国家自然科学基金重点项目 (U1613212);河北省自 然科学基金项目 (E2017202035). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
·128· 智能系统学报 第14卷 图像和声音一直以来是情感状态识别的主流 通过在触摸屏上滑动来采集数据,形式较为单 方式,但有些时候图像和语音并不能真实地反映 一。本文提出了一种基于阵列式触觉传感器的情 出用户当时的情感状态。图像识别在计算量上特 感识别方式,并在手势识别数据集上进行了实 别大,而且非常依赖光照条件。比如在赛车时, 验,探究不同手势下的情感识别。 由于头盔限制了图像的采集,并不能有效地利用 图像识别出驾驶员的情感信号;语音识别同时也 2情感识别 存在着缺陷,用户通过语音来表达情感时,常常 基于触觉手势的情感识别技术主要分为数据 伴随着语义的理解问题,需要通过语料的内容才 采集、数据预处理、特征提取、情感识别以及结果 能正确地判断说话人的情绪。因此,发展一种新 分析5个部分,如图1所示。数据采集通过阵列 的情感识别研究方向成为趋势。 式触觉传感器固定在载体上采集不同参与者的压 触觉在复杂的社会信息中扮演着重要角色, 力值数据:数据预处理是将已采集的压力随时间 情感识别正逐步成为人机交互领域研究的热点和 变化的数据进行处理,比如除掉错误的帧或者错 发展方向。人机情感交互让机器人更加了解人 误的样本数据;特征提取是对处理后的压力值数 类的情绪,并做出相应的反馈。这也让触觉情感 据进行分析,并提出情感识别相关的特征进行提 识别走进了人类生活。例如:智能家居能够通过 触摸来识别出用户的情感,进而做出反应调整灯 取;情感识别是将提取的情感识别特征输入到分 光或音乐;在线学习的用户通过触摸屏幕传递情 类器中进行训练;最后将情感识别的结果进行分析。 感信息,当用户面对学习系统表现出烦躁或者焦 虑情绪时,系统能够及时地给用户鼓励信息,使用 0.6 户的注意力重新转移到学习中;在医疗方面还可以 0.4 0.24 用情感识别来治疗自闭症患者和对养老院老人进 0 100 200 300 行心理疏导。 数据采集 帧数 数据预处理 1 相关工作 最大值70% Morrison等用实验证明触摸是传递亲密情 的帧所占 感的主要方式:Debrot等证实了情侣之间的积 比例 ©©© 0 极接触增强了他们的情感状态;Park等设计了 情感识别 触觉电话,证实触觉在面对面交流中的作用;Guest 等研究触觉与情感之间的联系,并建立了一份 0 10 20 30 帧数 英语中最常用的形容词,用来描述触摸体验; 特征提取 Kim等m提出一种基于神经网络的纺织品-情绪索 引方法,研究情感与图案之间的联系:Huang等侧 图1情感识别流程图 利用神经网络得到从图像特征空间到心理空间的 Fig.1 The flow chart of emotion recognition 映射函数,确定图像与情感之间的联系;Jug等 本文研究的基于触觉手势的情感识别技术是 建立CoST(corpus of social touch)触觉数据集,对 对多种手势进行情感识别,目的是探究手势对情 14种触觉手势进行识别分类,准确率达到60%; 感识别结果产生的影响以及情感之间的联系。首 周楠等利用3D卷积神经网络对触觉手势识别 先,对采集到的数据进行数据预处理,将“不规则” 进行了改进;Hughes等设计了一种新型传感 的帧排除;将预处理好的数据按照手势的不同拆 器,将距离信号和力信号用于手势识别,并证明 分:再对其中每一帧的数据进行分析,提出情感 与单独的力信号相比,近距离感知信号增加了手 识别相关的特征;将每个特征集按照参与者划分 势识别的准确性;Maramis等利用安卓手机设 为训练集和测试集;最后用极限学习机(ELM) 计开发了一款APP来引导用户自然地表达情感 分类器测试实验结果,并对实验结果进行对比分析。 并进行触觉情感识别;Gao等l在ipod上通过游 ELM是新加坡南洋理工大学的黄广斌教授 戏探究触觉行为是否反应玩家的情绪,并用机器 提出来的针对单个隐含层的前馈型神经网络(SLFNs) 学习完成4个情绪状态的分类。但是触摸屏在硬 的监督型学习算法阿,其主要思想是:输入层与隐 件方面存在一定的局限性,并不能像压阻式传感 含层之间的权值参数以及隐藏层上的偏置向量参 器一样具有很好的延展性和可弯曲性,且仅能 数,是不需要像其他基于梯度的学习算法一样通
图像和声音一直以来是情感状态识别的主流 方式,但有些时候图像和语音并不能真实地反映 出用户当时的情感状态。图像识别在计算量上特 别大,而且非常依赖光照条件。比如在赛车时, 由于头盔限制了图像的采集,并不能有效地利用 图像识别出驾驶员的情感信号;语音识别同时也 存在着缺陷,用户通过语音来表达情感时,常常 伴随着语义的理解问题,需要通过语料的内容才 能正确地判断说话人的情绪。因此,发展一种新 的情感识别研究方向成为趋势。 触觉在复杂的社会信息中扮演着重要角色, 情感识别正逐步成为人机交互领域研究的热点和 发展方向[2]。人机情感交互让机器人更加了解人 类的情绪,并做出相应的反馈。这也让触觉情感 识别走进了人类生活。例如:智能家居能够通过 触摸来识别出用户的情感,进而做出反应调整灯 光或音乐;在线学习的用户通过触摸屏幕传递情 感信息,当用户面对学习系统表现出烦躁或者焦 虑情绪时,系统能够及时地给用户鼓励信息,使用 户的注意力重新转移到学习中;在医疗方面还可以 用情感识别来治疗自闭症患者和对养老院老人进 行心理疏导。 1 相关工作 Morrison 等 [3]用实验证明触摸是传递亲密情 感的主要方式;Debrot 等 [4]证实了情侣之间的积 极接触增强了他们的情感状态;Park 等 [5]设计了 触觉电话,证实触觉在面对面交流中的作用;Guest 等 [6]研究触觉与情感之间的联系,并建立了一份 英语中最常用的形容词,用来描述触摸体验; Kim 等 [7]提出一种基于神经网络的纺织品-情绪索 引方法,研究情感与图案之间的联系;Huang 等 [8] 利用神经网络得到从图像特征空间到心理空间的 映射函数,确定图像与情感之间的联系;Jung 等 [9] 建立 CoST(corpus of social touch) 触觉数据集,对 14 种触觉手势进行识别分类,准确率达到 60%; 周楠等[10]利用 3D 卷积神经网络对触觉手势识别 进行了改进;Hughes 等 [11]设计了一种新型传感 器,将距离信号和力信号用于手势识别,并证明 与单独的力信号相比,近距离感知信号增加了手 势识别的准确性; Maramis 等 [12]利用安卓手机设 计开发了一款 APP 来引导用户自然地表达情感 并进行触觉情感识别;Gao 等 [13]在 ipod 上通过游 戏探究触觉行为是否反应玩家的情绪,并用机器 学习完成 4 个情绪状态的分类。但是触摸屏在硬 件方面存在一定的局限性,并不能像压阻式传感 器一样具有很好的延展性和可弯曲性[14] ,且仅能 通过在触摸屏上滑动来采集数据,形式较为单 一。本文提出了一种基于阵列式触觉传感器的情 感识别方式,并在手势识别数据集上进行了实 验,探究不同手势下的情感识别。 2 情感识别 基于触觉手势的情感识别技术主要分为数据 采集、数据预处理、特征提取、情感识别以及结果 分析 5 个部分,如图 1 所示。数据采集通过阵列 式触觉传感器固定在载体上采集不同参与者的压 力值数据;数据预处理是将已采集的压力随时间 变化的数据进行处理,比如除掉错误的帧或者错 误的样本数据;特征提取是对处理后的压力值数 据进行分析,并提出情感识别相关的特征进行提 取;情感识别是将提取的情感识别特征输入到分 类器中进行训练;最后将情感识别的结果进行分析。 本文研究的基于触觉手势的情感识别技术是 对多种手势进行情感识别,目的是探究手势对情 感识别结果产生的影响以及情感之间的联系。首 先,对采集到的数据进行数据预处理,将“不规则” 的帧排除;将预处理好的数据按照手势的不同拆 分;再对其中每一帧的数据进行分析,提出情感 识别相关的特征;将每个特征集按照参与者划分 为训练集和测试集;最后用极限学习机 (ELM) 分类器测试实验结果,并对实验结果进行对比分析。 ELM 是新加坡南洋理工大学的黄广斌教授 提出来的针对单个隐含层的前馈型神经网络 (SLFNs) 的监督型学习算法[15] ,其主要思想是:输入层与隐 含层之间的权值参数以及隐藏层上的偏置向量参 数,是不需要像其他基于梯度的学习算法一样通 数据采集 情感识别 数据预处理 1.0 0.8 0.6 0.4 0.2 ×104 ×104 0 100 200 300 特征提取 0 10 20 30 1.0 1.5 0.5 最大值70% 的帧所占 比例 帧数 帧数 单帧总压力值/(g·cm-2 ) 单帧总压力值/(g·cm-2 ) 图 1 情感识别流程图 Fig. 1 The flow chart of emotion recognition ·128· 智 能 系 统 学 报 第 14 卷
第1期 魏佳琪,等:触觉手势情感识别的超限学习方法 ·129· 过迭代反复调整刷新,而是直接求解一个最小范 该数据集的采集由安装在假肢手臂上的 数最小二乘问题,最终化归成一个矩阵的广义逆 8×8阵列式触觉传感器以135fs的频率完成。每 问题。ELM的原理如图2所示。 一个手势均由多个帧的数据构成,数据集的每一 帧都由64个传感器通道的压力值组成,压力值单 输入层 位为8gcm2。图3为传感器的8×8压力通道一帧 的灰度图,白色部分对应压力值最高的通道,黑 色部分对应压力值最低的通道。 隐含层 输出层 图2ELM的网络结构 Fig.2 The model structure of ELM 3数据处理及特征提取方法 图3传感器的灰度图 在以往的研究中,大部分学者把重心放在手 Fig.3 Gray scale image of sensor 势识别上6,本文主要对不同的手势进行情感识 3.1数据预处理 别。对数据集的处理一般包括3部分:数据预处 理、特征提取、特征选择。因为特征维度并不大, 首先,对部分数据进行观察,画出CoST数据 所以在本文中并没有使用常用的随机森林模型进 集帧数与每一帧压力总和之间的关系图,如图4 行特征选择。 所示,但手势的前半部分(第1个虚线前)属于手 文献[16]中提出的CoST数据集包含31个参 势执行前的噪声,虚线内的部分才是手势执行的 与者,每个参与者根据要求分别执行14个手势, 过程,所以虚线前并无实际意义,需要删除此部 每个手势重复6次,每个动作分别以3种情感(温 分。因此对整体的Co$T数据集进行分割,以此 柔、普通、暴躁)来执行。也就是说,每个参与者 来删除掉手势中无意义的帧。这样就能保证计算 都会执行252次动作。手势包括grab、hit、massage、 的时间序列特征更有意义。 pat、pinch、poke、press、rub、scratch、slap、squeeze、 1.5*10 stroke、tap、tickle。表1是对14个手势的定义7。 表1手势的定义 Table 1 Gesture definition 手势名称 手势定义 grab 突然抓住手臂 hit 对手臂进行打击 0.5 50 100 150 200 massage 按摩手臂 帧数 pat 轻轻的拍手臂 pinch 拧手臂 图4对“暴躁的massage”的分割图 poke 戳手臂 Fig.4 Segmentation of a“rough massage” press 按压手臂 3.2特征提取 rub 用不变的压力搓手臂 不同的情感环境下,最主要的3个影响因素 scratch 用指甲挠手臂 slap 扇手臂 分别为压力值、传感器的接触面积和触摸的有效 squeeze 挤手臂 时间。显然,不同情感的平均压力值和最大压力 stroke 手在手臂上来回划动 值是判别情感程度的初步特征,压力值由小到大 tap 敲手臂 分别为:温柔的动作压力值、正常的动作压力值、 tickle 用手指轻触手臂 暴躁的动作压力值。光有这两个特征远远不够
过迭代反复调整刷新,而是直接求解一个最小范 数最小二乘问题,最终化归成一个矩阵的广义逆 问题。ELM 的原理如图 2 所示。 3 数据处理及特征提取方法 在以往的研究中,大部分学者把重心放在手 势识别上[16] ,本文主要对不同的手势进行情感识 别。对数据集的处理一般包括 3 部分:数据预处 理、特征提取、特征选择。因为特征维度并不大, 所以在本文中并没有使用常用的随机森林模型进 行特征选择。 文献[16]中提出的 CoST 数据集包含 31 个参 与者,每个参与者根据要求分别执行 14 个手势, 每个手势重复 6 次,每个动作分别以 3 种情感 (温 柔、普通、暴躁) 来执行。也就是说,每个参与者 都会执行 252 次动作。手势包括 grab、hit 、massage、 pat、pinch、poke、press、rub、scratch、slap、squeeze、 stroke、tap、tickle。表 1 是对 14 个手势的定义[17]。 该数据集的采集由安装在假肢手臂上 的 8×8 阵列式触觉传感器以 135 f/s 的频率完成。每 一个手势均由多个帧的数据构成,数据集的每一 帧都由 64 个传感器通道的压力值组成,压力值单 位为[18] g/cm2。图 3 为传感器的 8×8 压力通道一帧 的灰度图,白色部分对应压力值最高的通道,黑 色部分对应压力值最低的通道。 3.1 数据预处理 首先,对部分数据进行观察,画出 CoST 数据 集帧数与每一帧压力总和之间的关系图,如图 4 所示,但手势的前半部分 (第 1 个虚线前) 属于手 势执行前的噪声,虚线内的部分才是手势执行的 过程,所以虚线前并无实际意义,需要删除此部 分。因此对整体的 CoST 数据集进行分割,以此 来删除掉手势中无意义的帧。这样就能保证计算 的时间序列特征更有意义。 3.2 特征提取 不同的情感环境下,最主要的 3 个影响因素 分别为压力值、传感器的接触面积和触摸的有效 时间。显然,不同情感的平均压力值和最大压力 值是判别情感程度的初步特征,压力值由小到大 分别为:温柔的动作压力值、正常的动作压力值、 暴躁的动作压力值。光有这两个特征远远不够。 x 1 x 2 x n (w,b) β y 输出层 隐含层 输入层 图 2 ELM 的网络结构 Fig. 2 The model structure of ELM 图 3 传感器的灰度图 Fig. 3 Gray scale image of sensor ×104 单帧总压力值/(g·cm−2 ) 帧数 1.5 1.0 0.5 0 50 100 150 200 图 4 对“暴躁的 massage”的分割图 Fig. 4 Segmentation of a “rough massage” 表 1 手势的定义 Table 1 Gesture definition 手势名称 手势定义 grab 突然抓住手臂 hit 对手臂进行打击 massage 按摩手臂 pat 轻轻的拍手臂 pinch 拧手臂 poke 戳手臂 press 按压手臂 rub 用不变的压力搓手臂 scratch 用指甲挠手臂 slap 扇手臂 squeeze 挤手臂 stroke 手在手臂上来回划动 tap 敲手臂 tickle 用手指轻触手臂 第 1 期 魏佳琪,等:触觉手势情感识别的超限学习方法 ·129·
·130· 智能系统学报 第14卷 情感的准确辨别,至少需要2种行为特征:触觉行 1)一帧中阵列传感器所有通道的平均值。 为的持续时间和强度。因此我们对其他特征进 2)所有帧所有通道的平均值和最大值。 行了探究。 3)该动作的所有帧当中,无信号的百分比。 首先对CoST数据集的poke手势进行了分 如果这一帧的64列的平均压力值小于60g/cm2, 析,如图5、图6所示,通过对手势的压力值大小 那么就说明这个帧是没有信号的。 与时间关系的二维图、三维图的分析,进而推断 4)所有帧当中每一列的平均压力。 出影响情感的因素。 5)所有帧当中每一行的平均压力。 6)每一帧的总压力,然后求帧与帧之间总压 ×10H 1.8 暴躁 力差的绝对值。此特征显示该情感下不同时刻间 1.6 普 温柔 力的大小变化。 7)取特征2)中的平均值,计算达到平均值的 1.2 1.0 帧数所占该动作总帧数百分比。 0.8 8)求出每一帧中64个通道的最大值,求当前 0.6 帧下,达到50%最大值的数量。 0.4 9)接触面积。 0.2 10)压力峰值的间距。每一帧的压力值总和 020406080100120140160180200 帧数 随着帧数变化,其中极大值之间的时间差。 11)每一个动作下不同情感的有效接触时 图53种情感下的二维图 间。即求出每个动作各个情感的总有效帧数。 Fig.5 A two-dimensional comparison of three emotions 由此得到数据特征集。边缘检测是图像处理 和计算机视觉中的常用手段,目的是标识图像中 800 亮度变化明显的点0。图像属性中的显著变化通 号600 400 常反应了属性的重要事件和变化。用于视频分类 的特征可以用于CoST数据集,因为CoST数据是 以固定速率更新的网格形式的压力值,其类似于 150 100 40 60 80 低分辨率灰度视频。利用sobel算子,通过锐化对 帧数 50 0 20 传感器64矩阵 比度,构建了第2组数据帧,使用32节中相同的 (a)温柔 提取特征程序,获得一组新的数据特征集。将两 组数据特征集合整合到一起。 3.3分类器实验及结果 1000 8 本文采用了3种分类器:支持向量机(SVM) 极限学习机(ELM)和随机森林(RF)。本文的支 400 200 持向量机分类器使用了libsvm工具箱的RBF核 0 函数来训练样本;本文的ELM分类器对参数最优 100 80 60 值进行了研究,如图7所示,激活函数设置为sine, 顿数 50 40 传感器64矩阵 20 0 隐含层数量设置为100时,ELM的分类效果最好。 (b)正常 随机森林是一种包含多个决策树的分类器,并且其输 出的类别是由个别树输出的类别的众数而定,决 策树数量设置为300时,随机森林的分类效果最好。 800 0.73 600 0.72 州-S1g ◆-s1n hardlim 400 0.71 解0.70 200 0.69 0 0.68 60 80 0.67 0 数 2 40 传感器64矩阵 0.66 0 50 60708090100110120130 (c)暴躁 隐含层数 图63种情感下三维图 图7ELM参数灵敏图 Fig.6 A 3D comparison of three emotions Fig.7 Parameter-sensitive map of ELM
情感的准确辨别,至少需要 2 种行为特征:触觉行 为的持续时间和强度 [19]。因此我们对其他特征进 行了探究。 首先对 CoST 数据集的 poke 手势进行了分 析,如图 5、图 6 所示,通过对手势的压力值大小 与时间关系的二维图、三维图的分析,进而推断 出影响情感的因素。 1) 一帧中阵列传感器所有通道的平均值。 2) 所有帧所有通道的平均值和最大值。 3) 该动作的所有帧当中,无信号的百分比。 如果这一帧的 64 列的平均压力值小于 60 g/cm2 , 那么就说明这个帧是没有信号的。 4) 所有帧当中每一列的平均压力。 5) 所有帧当中每一行的平均压力。 6) 每一帧的总压力,然后求帧与帧之间总压 力差的绝对值。此特征显示该情感下不同时刻间 力的大小变化。 7) 取特征 2) 中的平均值,计算达到平均值的 帧数所占该动作总帧数百分比。 8) 求出每一帧中 64 个通道的最大值,求当前 帧下,达到 50% 最大值的数量。 9) 接触面积。 10) 压力峰值的间距。每一帧的压力值总和 随着帧数变化,其中极大值之间的时间差。 11) 每一个动作下不同情感的有效接触时 间。即求出每个动作各个情感的总有效帧数。 由此得到数据特征集。边缘检测是图像处理 和计算机视觉中的常用手段,目的是标识图像中 亮度变化明显的点[20]。图像属性中的显著变化通 常反应了属性的重要事件和变化。用于视频分类 的特征可以用于 CoST 数据集,因为 CoST 数据是 以固定速率更新的网格形式的压力值,其类似于 低分辨率灰度视频。利用 sobel 算子,通过锐化对 比度,构建了第 2 组数据帧,使用 3.2 节中相同的 提取特征程序,获得一组新的数据特征集。将两 组数据特征集合整合到一起。 3.3 分类器实验及结果 本文采用了 3 种分类器:支持向量机 (SVM)、 极限学习机 (ELM) 和随机森林 (RF)。本文的支 持向量机分类器使用了 libsvm 工具箱的 RBF 核 函数来训练样本;本文的 ELM 分类器对参数最优 值进行了研究,如图 7 所示,激活函数设置为 sine, 隐含层数量设置为 100 时,ELM 的分类效果最好。 随机森林是一种包含多个决策树的分类器,并且其输 出的类别是由个别树输出的类别的众数而定,决 策树数量设置为 300 时,随机森林的分类效果最好。 0 20 40 60 80 100 120 140 160 180 200 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 暴躁 普通 温柔 单帧压力总值/(g·cm−2 ) 帧数 ×104 图 5 3 种情感下的二维图 Fig. 5 A two-dimensional comparison of three emotions (b) 正常 (a) 温柔 0 200 200 150 80 400 压力/(g·cm−2 ) 60 600 帧数 100 800 40 50 20 0 传感器64矩阵 0 150 200 400 80 压力/(g·cm−2 ) 600 60 帧数 800 1 000 40 100 50 20 0 传感器64矩阵 0 100 200 400 80 压力/(g·cm−2 ) 600 60 帧数 800 50 1 000 40 20 0 传感器64矩阵 (c) 暴躁 图 6 3 种情感下三维图 Fig. 6 A 3D comparison of three emotions 50 60 70 80 90 100 110 120 130 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 sig sin hardlim 隐含层数 准确率/% 图 7 ELM 参数灵敏图 Fig. 7 Parameter-sensitive map of ELM ·130· 智 能 系 统 学 报 第 14 卷
第1期 魏佳琪,等:触觉手势情感识别的超限学习方法 ·131· 将31个参与者中随机抽取的21个人的所有 grab tickle hit 特征数据当作训练集,另外10个人的所有特征数 据当作测试集。将训练集和测试集再按照手势分 a即 massage 成14组,依次进行分类识别。分类结果如表2所 stroke 示,从14个手势的整体来看,SVM和随机森林的 分类准确率较为相似,ELM无论是从准确度上还 是分类时间上都要优于其他2个分类器。图8中, squeeze pinch 雷达图的最外层代表80%的准确率,最内层代表 30%。从图8可以看出,14个手势中stroke手势的 poke 情感分类效果最好,在3个分类器的分类结果中 scratch press rub 均为最高,在触觉情感识别中,ELM的输入层与 -o-SVM -o-ELM -。·随机森林 隐含层之间的权值参数以及隐藏层上的偏置向量 图8情感识别雷达图 参数是不需要像其他基于梯度的学习算法一样通 Fig.8 Radar map of emotion classification 过迭代反复调整刷新,而是直接利用情感特征求 解一个最小范数最小二乘问题。所以ELM在情 温柔 0.64 0.36 0.00 感识别中效果较优。其中,ELM分类器对stroke 手势的情感识别分类精度达到70.95%。图9为 SVM分类器下的混淆矩阵图,从图中可以看出 正常 0.17 0.72 0.12 stroke手势在3种不同的情感状态下均有较好的 分类效果;手势和情感之间存在着某些联系,不 暴躁 0.03 0.20 0.77 同的手势本身对应着不同情感,会对实验结果产 生影响。比如当人们执行pinch手势时,更倾向 温柔 正常 暴躁 (a)划 于暴躁情绪,同时暴躁情感的识别准确度也最 高,也更容易将其他2种情感混为暴躁情绪;而 press手势则被容易理解为一种温柔情感下的动 温柔 047 0.30 0.23 作,其在执行和识别的过程中更倾向于温柔情绪。 表2情感识别准确率 正常 0.12 0.50 0.38 Table 2 Accuracy of emotion classification % 分类结果 SVM ELM 随机森林 暴躁 0.00 0.18 0.82 grab 58.89 63.33 59.44 温柔 正常 暴躁 hit 51.11 59.44 53.89 b)拧 massage 50.56 58.33 51.11 pat 57.78 61.11 54.44 温柔 0.75 0.08 0.17 pinch 58.89 64.44 57.78 poke 47.22 56.67 51.67 正常 0.42 0.40 0.18 press 55.56 57.78 55.00 rub 65.56 65.00 59.64 暴躁 0.12 037 0.52 scratch 64.44 62.78 65.56 暴躁 slap 52.78 57.78 52.22 温柔 正常 (c)按 squeeze 50.00 56.67 51.67 图9手势的情感识别混淆矩阵 stroke 70.95 72.07 67.60 Fig.9 Emotion recognition confusion matrix of the gestures tap 51.67 58.89 54.44 tickle 62.22 62.22 52.22 4结束语 平均 56.97 61.18 56.19 本文提出了基于触觉手势的情感识别技术
将 31 个参与者中随机抽取的 21 个人的所有 特征数据当作训练集,另外 10 个人的所有特征数 据当作测试集。将训练集和测试集再按照手势分 成 14 组,依次进行分类识别。分类结果如表 2 所 示,从 14 个手势的整体来看,SVM 和随机森林的 分类准确率较为相似,ELM 无论是从准确度上还 是分类时间上都要优于其他 2 个分类器。图 8 中, 雷达图的最外层代表 80% 的准确率,最内层代表 30%。从图 8可以看出,14 个手势中 stroke 手势的 情感分类效果最好,在 3 个分类器的分类结果中 均为最高,在触觉情感识别中,ELM 的输入层与 隐含层之间的权值参数以及隐藏层上的偏置向量 参数是不需要像其他基于梯度的学习算法一样通 过迭代反复调整刷新,而是直接利用情感特征求 解一个最小范数最小二乘问题。所以 ELM 在情 感识别中效果较优。其中,ELM 分类器对 stroke 手势的情感识别分类精度达到 70.95%。图 9 为 SVM 分类器下的混淆矩阵图,从图中可以看出 stroke 手势在 3 种不同的情感状态下均有较好的 分类效果;手势和情感之间存在着某些联系,不 同的手势本身对应着不同情感,会对实验结果产 生影响。比如当人们执行 pinch 手势时,更倾向 于暴躁情绪,同时暴躁情感的识别准确度也最 高,也更容易将其他 2 种情感混为暴躁情绪;而 press 手势则被容易理解为一种温柔情感下的动 作,其在执行和识别的过程中更倾向于温柔情绪。 4 结束语 本文提出了基于触觉手势的情感识别技术, grab hit massage pat pinch poke press rub scratch slap squeeze stroke tap tickle SVM ELM 随机森林 图 8 情感识别雷达图 Fig. 8 Radar map of emotion classification 0.64 0.17 0.03 0.36 0.72 0.20 0.00 0.12 0.77 温柔 正常 暴躁 温柔 正常 暴躁 0.47 0.12 0.00 0.30 0.50 0.18 0.23 0.38 0.82 温柔 正常 暴躁 温柔 正常 暴躁 0.75 0.42 0.12 0.08 0.40 0.37 0.17 0.18 0.52 温柔 正常 暴躁 温柔 正常 暴躁 (a) 划 (b) 拧 (c) 按 图 9 手势的情感识别混淆矩阵 Fig. 9 Emotion recognition confusion matrix of the gestures 表 2 情感识别准确率 Table 2 Accuracy of emotion classification % 分类结果 SVM ELM 随机森林 grab 58.89 63.33 59.44 hit 51.11 59.44 53.89 massage 50.56 58.33 51.11 pat 57.78 61.11 54.44 pinch 58.89 64.44 57.78 poke 47.22 56.67 51.67 press 55.56 57.78 55.00 rub 65.56 65.00 59.64 scratch 64.44 62.78 65.56 slap 52.78 57.78 52.22 squeeze 50.00 56.67 51.67 stroke 70.95 72.07 67.60 tap 51.67 58.89 54.44 tickle 62.22 62.22 52.22 平均 56.97 61.18 56.19 第 1 期 魏佳琪,等:触觉手势情感识别的超限学习方法 ·131·