第11卷第4期 智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992/6is.201605019 网络出版地址:http:/www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.002.html 基于多情绪源关联模型的中文微博情感分析 李凌霄1.2,李绍滋12,曹冬林1,2 (1.厦门大学智能科学与技术系,福建厦门361005:2.厦门大学福建省仿脑智能系统重点实验室,福建厦门361005) 摘要:社交媒体信息的爆炸式增长,使得依据其对公众舆论情感的分析受到越来越多的关注。与传统文本不同, 新浪微博中存在包括情感词、表情、图片和视频等特征在内的多情绪源,本文针对中文社交短文本情感分析中情感 词典时效性问题和多情绪源间的关联性问题,提出了一种多情绪源关联模型。该模型考虑微博中的情感词和表情 特征及其之间的关联关系,在经典的词典规则投票方法基础上,引入多情绪源以及关联概率,通过概率建模的方式 对情感词和表情两类情绪源建立关联模型,实现对微博情感的判别。实验表明,在6171条微博数据集中,多情绪源 关联模型分类准确率达到了85.3%,强于包含情感词和表情的传统投票模型(83.4%)以及包含同类多特征的SVM 方法(82.9%)。 关键词:多模态情感分析;多情绪源;社交媒体;关联性 中图分类号:TP391文献标志码:A文章编号:1673-4785(2016)04-0546-08 中文引用格式:李凌霄,李绍滋,曹冬林.基于多情绪源关联模型的中文微博情感分析[J].智能系统学报,2016,11(4):546-553. 英文引用格式:LI Lingxiao,Shaozi,CAO Donglin..Emotional multi-source correlation model for chinese micro-blog sentiment a- nalysis[J].CAAI Transactions on Intelligent Systems,2016,11(4):546-553. Emotional multi-source correlation model for chinese micro-blog sentiment analysis LI Lingxiao,LI Shaozi,CAO Donglin'. (1.Cognitive Science Department,Xiamen University,Xiamen 361005,China;2.Fujian Key Laboratory of the Brain-like Intelligent Systems,Xiamen 361005,China) Abstract:With the explosion of social media information,sentiment analysis of public opinion is attracting more and more attention.Compared with traditional text,the Sina micro-blog contains a variety of emotional sources,in- cluding sentiment words,emoticons,pictures,etc.To solve the problem of the poor timeliness of lexicons in Chi- nese social short messages and to utilize the correlation between different emotional sources,an emotional multi- source correlation model (EMCM)is proposed to carry out sentiment analysis on a micro-blog.In particular,it takes advantage of the correlation between sentiment words and emoticons.It imports the multi-sources and correla- tion probabilities,and then builds a correlation model between the two emotional sources,emotional words and emoticons,based on a voting model using sentimental words.Experimental results show that this model achieved an accuracy of 85.3%in 6 171 micro-blogs,higher than either the traditional method based on voting (83.4%)or the SVM method based on similar multi-features (82.9%). Keywords:multi-modal sentiment analysis;emotional multi-sources;social media;correlation 时下,社交媒体正成为人们生活中不可或缺的 收稿日期:2016-05-19.网络出版日期:2016-08-08. 一部分,通过微博、微信等工具,人们可以随意发表 基金项目:国家自然科学基金项目(61202143,61305061,61402386, 对电影、商品的喜恶,对社会事件的个人观点,甚至 61572409):福建省自然科学基金项目(2013J05100). 通信作者:曹冬林.E-mail:another(@xmu.cdu.cn. 对国家政策的看法。如何从包含这些信息的大规模
第 11 卷第 4 期 智 能 系 统 学 报 Vol.11 №.4 2016 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2016 DOI:10.11992 / tis.201605019 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160808.0830.002.html 基于多情绪源关联模型的中文微博情感分析 李凌霄1, 2 , 李绍滋1, 2 ,曹冬林1, 2 (1.厦门大学 智能科学与技术系,福建 厦门 361005; 2. 厦门大学 福建省仿脑智能系统重点实验室,福建 厦门 361005) 摘 要:社交媒体信息的爆炸式增长,使得依据其对公众舆论情感的分析受到越来越多的关注。 与传统文本不同, 新浪微博中存在包括情感词、表情、图片和视频等特征在内的多情绪源,本文针对中文社交短文本情感分析中情感 词典时效性问题和多情绪源间的关联性问题,提出了一种多情绪源关联模型。 该模型考虑微博中的情感词和表情 特征及其之间的关联关系,在经典的词典规则投票方法基础上,引入多情绪源以及关联概率,通过概率建模的方式 对情感词和表情两类情绪源建立关联模型,实现对微博情感的判别。 实验表明,在 6 171 条微博数据集中,多情绪源 关联模型分类准确率达到了 85.3%,强于包含情感词和表情的传统投票模型(83.4%)以及包含同类多特征的 SVM 方法(82.9%)。 关键词:多模态情感分析;多情绪源;社交媒体;关联性 中图分类号: TP391 文献标志码:A 文章编号:1673-4785(2016)04-0546-08 中文引用格式:李凌霄,李绍滋,曹冬林. 基于多情绪源关联模型的中文微博情感分析[J]. 智能系统学报, 2016, 11(4): 546-553. 英文引用格式:LI Lingxiao, LI Shaozi, CAO Donglin. Emotional multi⁃source correlation model for chinese micro⁃blog sentiment a⁃ nalysis[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 546-553. Emotional multi⁃source correlation model for chinese micro⁃blog sentiment analysis LI Lingxiao 1 , 2 , LI Shaozi 1 , 2 , CAO Donglin 1 , 2 (1. Cognitive Science Department, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of the Brain⁃like Intelligent Systems, Xiamen 361005, China) Abstract:With the explosion of social media information, sentiment analysis of public opinion is attracting more and more attention. Compared with traditional text, the Sina micro⁃blog contains a variety of emotional sources, in⁃ cluding sentiment words, emoticons, pictures, etc. To solve the problem of the poor timeliness of lexicons in Chi⁃ nese social short messages and to utilize the correlation between different emotional sources, an emotional multi⁃ source correlation model (EMCM) is proposed to carry out sentiment analysis on a micro⁃blog. In particular, it takes advantage of the correlation between sentiment words and emoticons. It imports the multi⁃sources and correla⁃ tion probabilities, and then builds a correlation model between the two emotional sources, emotional words and emoticons, based on a voting model using sentimental words. Experimental results show that this model achieved an accuracy of 85.3% in 6 171 micro⁃blogs, higher than either the traditional method based on voting (83.4%) or the SVM method based on similar multi⁃features (82.9%). Keywords: multi⁃modal sentiment analysis; emotional multi⁃sources; social media; correlation 收稿日期:2016-05-19. 网络出版日期:2016-08-08. 基金项目:国家自然科学基金项目 ( 61202143, 61305061, 61402386, 61572409);福建省自然科学基金项目 (2013J05100). 通信作者:曹冬林. E⁃mail:another@ xmu.edu.cn. 时下,社交媒体正成为人们生活中不可或缺的 一部分,通过微博、微信等工具,人们可以随意发表 对电影、商品的喜恶,对社会事件的个人观点,甚至 对国家政策的看法。 如何从包含这些信息的大规模
第4期 李凌霄,等:基于多情绪源关联模型的中文微博情感分析 .547, 数据中获取诸如情感倾向在内的潜在信息,对于产 特征选择上,D.Kushal等)对语法规则、n-gram 品导向、广告精确投放、国家舆情控制等领域都具有 特征进行了分析;Hatzivassiloglou等[)使用了情感 重要意义,社交信息的数据挖掘与分析正成为研究 词作为特征,对句子级别的情感倾向进行了分析:J 者们关注的热门课题。 C.Na等]对指定词语和否定短语特征进行了分析。 对英文社交媒体(如Tweet)的情感分析已经有 这类机器学习方法,例如多特征SVM情感分类 很多进展,分析的方法主要分为有监督方法[15]和 方法,并未考虑到不同特征之间的关联关系。 基于词典或逐点互信息(PMI)[]的无监督方法。 1.2无监督方法 而类似针对中文社交媒体的情感分析工作则仍处于 无监督方法利用文本中带有情感的词汇的情感倾 起步阶段,所使用的方法大都源于英文情感分析方 向,综合考虑文本的语法规则、句法构成等要素对文本 法,但由于社交媒体表现形式的多样化和中文网络 进行情感极性的判别,通常采用投票的方法。在该类 语境多变性等原因,传统分类方法仍存在很大改进 方法中,主要依靠文本分析,并未关注社交媒体信息中 空间,本文针对目前存在的两个问题进行建模: 情绪源多并且不同情绪源之间存在关联性的特点。 1)情感词典时效性差,中文新词的出现更为频 基于情感词方法的基础是判断词的情感,对词 繁,基于统计的方法在短周期内难以判断其情感; 汇的情感判断方法包括:基于情感词典、基于监督学 2)传统方法未考虑多情绪源之间的关联。 习[)和基于种子词-]的方法等。 这里的多情绪源是指微博中可能出现的能够体 常用的中文情感词典有知网情感分析用词语 现其情感的多种异构特征,如情感词、表情符号、图 集、台湾大学中文情感极性词典(NTUSD)和大连理 片和视频等。并且这些情绪源之间存在以下在情感 工大学中文情感词汇本体库等。基于情感词典的方 分析上可以进行互补利用的关联关系: 法主要缺陷在于覆盖面窄、无法包含网络新词。 1)不同情绪源表达的情感强度可能不同,强情 Wilson等)提出了一种二步分类的有监督方 绪源可以对弱情绪源进行极性加强: 法判断短语的极性:1)判断将短语分类为有极性和 2)同一情绪下不同情绪源之间存在较强的关联 中性:2)将第1步中得出的有极性短语进一步划分 性,例如在“哈哈”表情下出现正情感词的概率较大。 为4类极性,每一步使用不同的特征进行分类,分类 根据以上分析,我们提出了一种多情绪源关联 器相同(BoosTexter AdaBoost.HM6])。最终在其数 模型,该模型对微博中的情感词和表情符号两种情 据集上准确率达到75.9%。 绪源及其之间的关联进行建模。我们的实验结果显 Turney!]提出了一种判断单词情感的方法,通 示,该模型在微博数据上优于经典分类算法,并且该 过在大规模语料集中分别计算目标单词与正负极性 模型具有拓展性,可以继续加入诸如图片和视频在 种子词(正种子词:excellent;负种子词:pool)的逐点 内的其他情绪源。 互信息,将两个结果进行对比得出目标单词的情感, 最终在其数据集中达到82.8%的准确率,缺点是需 1情感分析相关工作 要大规模语料集,运算量大。 文本情感分析近几年逐渐成为热门研究课题, 此外,XiaH.等9)研究了英文社交媒体中出现 其内容主要包括情感极性分析和主客观分析等,本 的情感标记信号在无监督情感分析中的应用,取得 文主要关注情感极性分析。目前情感极性分析的方 了良好的效果。 法主要分为两类:有监督的分类器学习方法和无监 1.3中文微博情感极性分析研究现状 督的基于情感词典或者PMI的方法。 中文微博情感极性分析主要方法来源于上文提 1.1有监督方法 及的英文文本情感分析相关方法[0】 有监督方法大多通过机器学习技术从文本中选 目前,由中国中文信息学会(CPS)主办的中文倾 取合适的特征构建分类器,包括朴素贝叶斯、最大嫡 向性分析评测(The Fifth Chinese Opinion Analysis Eval- 和支持向量机等,进而对不同情感进行分类。 uation,COAE)聚集了该领域大量研究成果。COAE评 分类器选择上,Pang等)用以上3种分类器将 测由2008年开始每年举办一次,发布中文倾向性分析 影评分为正、负两类极性,引入了一元语法特征、二 的相关任务,包括情感识别、新词发现、观点句提取和 元语法特征、词性特征和词位置特征等8种组合特 评价对象识别等。表1给出了COAE2013http:// 征,最终使用基于出现与否的一元语法特征SVM分 ccir2013.sxu.edu.cn/C0AE.aspx任务1(基于否定句的 类器效果最好,在其语料集中达到83%的准确率。 句子级倾向性分析)的最佳评测结果
数据中获取诸如情感倾向在内的潜在信息,对于产 品导向、广告精确投放、国家舆情控制等领域都具有 重要意义,社交信息的数据挖掘与分析正成为研究 者们关注的热门课题。 对英文社交媒体(如 Tweet)的情感分析已经有 很多进展,分析的方法主要分为有监督方法[1- 5 ] 和 基于词典或逐点互信息( PMI) [ 7 ] 的无监督方法。 而类似针对中文社交媒体的情感分析工作则仍处于 起步阶段,所使用的方法大都源于英文情感分析方 法,但由于社交媒体表现形式的多样化和中文网络 语境多变性等原因,传统分类方法仍存在很大改进 空间,本文针对目前存在的两个问题进行建模: 1)情感词典时效性差,中文新词的出现更为频 繁,基于统计的方法在短周期内难以判断其情感; 2)传统方法未考虑多情绪源之间的关联。 这里的多情绪源是指微博中可能出现的能够体 现其情感的多种异构特征,如情感词、表情符号、图 片和视频等。 并且这些情绪源之间存在以下在情感 分析上可以进行互补利用的关联关系: 1)不同情绪源表达的情感强度可能不同,强情 绪源可以对弱情绪源进行极性加强; 2)同一情绪下不同情绪源之间存在较强的关联 性,例如在“哈哈”表情下出现正情感词的概率较大。 根据以上分析,我们提出了一种多情绪源关联 模型,该模型对微博中的情感词和表情符号两种情 绪源及其之间的关联进行建模。 我们的实验结果显 示,该模型在微博数据上优于经典分类算法,并且该 模型具有拓展性,可以继续加入诸如图片和视频在 内的其他情绪源。 1 情感分析相关工作 文本情感分析近几年逐渐成为热门研究课题, 其内容主要包括情感极性分析和主客观分析等,本 文主要关注情感极性分析。 目前情感极性分析的方 法主要分为两类:有监督的分类器学习方法和无监 督的基于情感词典或者 PMI 的方法。 1.1 有监督方法 有监督方法大多通过机器学习技术从文本中选 取合适的特征构建分类器,包括朴素贝叶斯、最大熵 和支持向量机等,进而对不同情感进行分类。 分类器选择上,Pang 等[1]用以上 3 种分类器将 影评分为正、负两类极性,引入了一元语法特征、二 元语法特征、词性特征和词位置特征等 8 种组合特 征,最终使用基于出现与否的一元语法特征 SVM 分 类器效果最好,在其语料集中达到 83%的准确率。 特征选择上,D.Kushal 等[2]对语法规则、n⁃gram 特征进行了分析;Hatzivassiloglou 等[3] 使用了情感 词作为特征,对句子级别的情感倾向进行了分析;J. C.Na 等[4]对指定词语和否定短语特征进行了分析。 这类机器学习方法,例如多特征 SVM 情感分类 方法,并未考虑到不同特征之间的关联关系。 1.2 无监督方法 无监督方法利用文本中带有情感的词汇的情感倾 向,综合考虑文本的语法规则、句法构成等要素对文本 进行情感极性的判别,通常采用投票的方法。 在该类 方法中,主要依靠文本分析,并未关注社交媒体信息中 情绪源多并且不同情绪源之间存在关联性的特点。 基于情感词方法的基础是判断词的情感,对词 汇的情感判断方法包括:基于情感词典、基于监督学 习[5]和基于种子词[ 7-9 ]的方法等。 常用的中文情感词典有知网情感分析用词语 集、台湾大学中文情感极性词典(NTUSD)和大连理 工大学中文情感词汇本体库等。 基于情感词典的方 法主要缺陷在于覆盖面窄、无法包含网络新词。 Wilson 等[5]提出了一种二步分类的有监督方 法判断短语的极性:1)判断将短语分类为有极性和 中性;2)将第 1 步中得出的有极性短语进一步划分 为 4 类极性,每一步使用不同的特征进行分类,分类 器相同(BoosTexter AdaBoost.HM [ 6 ] )。 最终在其数 据集上准确率达到 75.9%。 Turney [7 ]提出了一种判断单词情感的方法,通 过在大规模语料集中分别计算目标单词与正负极性 种子词(正种子词:excellent;负种子词:pool)的逐点 互信息,将两个结果进行对比得出目标单词的情感, 最终在其数据集中达到 82.8%的准确率,缺点是需 要大规模语料集,运算量大。 此外,Xia H.等[9] 研究了英文社交媒体中出现 的情感标记信号在无监督情感分析中的应用,取得 了良好的效果。 1.3 中文微博情感极性分析研究现状 中文微博情感极性分析主要方法来源于上文提 及的英文文本情感分析相关方法[ 10 ] 。 目前,由中国中文信息学会(CIPS)主办的中文倾 向性分析评测(The Fifth Chinese Opinion Analysis Eval⁃ uation, COAE)聚集了该领域大量研究成果。 COAE 评 测由 2008 年开始每年举办一次,发布中文倾向性分析 的相关任务,包括情感识别、新词发现、观点句提取和 评价对象识别等。 表 1 给出了 COAE2013 http:/ / ccir2013.sxu.edu.cn/ COAE.aspx 任务 1(基于否定句的 句子级倾向性分析)的最佳评测结果。 第 4 期 李凌霄,等: 基于多情绪源关联模型的中文微博情感分析 ·547·
.548. 智能系统学报 第11卷 表1C0AE2013任务1最佳评测宏平均结果 情感 Table 1 COAE2013 Taskl best evaluation results 参数 褒义 中性 贬义 情感极性 准确率 0.741 0.445 0.836 召回率 0.619 0.725 0.464 图1情感词投票模型 F 0.674 0.551 0.597 Fig.1 Word voting model 精度 0.615 最佳结果[1小使用了集成学习的方法,通过多 情感 次欠采样训练NB、ME、SVM基分类器,通过product ule融合多个基分类器。该方法针对标注数据集较 情感极性 少的情况,提高了分类器的鲁棒性和泛化能力。 图2无关联模型 在中文微博情感分析的多种方法中,SVM方法 Fig.2 Uncorrelated model 虽然引入了不同特征,但是认为特征之间相互独立: 基于规则投票的方法主要依赖情感词典和语法规 则,也有引入表情符号等情绪源的方法,但未考虑不 情感 表 关联关 同情绪源之间的关联。 此外,谢丽星等12]提出了基于层次结构的 情感极性 SVM分类方法,选取主题相关特征构建分类器对微 博情感进行三分类。通过分句考虑了3类极性的句 图3多情绪源关联模型 子数目以及首尾句情感极性,并且依据主题选取了 Fig.3 Emotional multi-source correlation model 多种特征训练分类器,在其数据集上达到67.283% 2.2 基于词典投票的情感分类模型 的准确率。但通过对我们的6171条微博进行分析 本节介绍了传统方法中基于情感词典投票的情 发现,句子数目大于2的微博仅占12%,因此分句对 感分类模型,并对其进行了概率转换,再依据否定词 情感分析效果不大。此外由于本文针对没有主题标 和感叹句对情感词极性进行了修正。 签的微博,因此最终在实验中选择文献[12】中与主 2.2.1情感词典概率模型 题无关的不分句最佳特征SVM以及无关联多情绪 基于情感词典的分析方法将情感词典中标注为 源模型作为对比方法。 正负极性的情感词作为特征,先对文本进行分词(本 2算法实现 文中涉及的分词工具使用了中科院计算所开发的IC- TCLAS50分词系统htp:/www.ictclas.org/),将正负 多情绪源关联模型受基于词典投票的情感分析 情感词在文本中出现次数的差值作为文本正负情感 方法启发,对包括情感词在内的多情绪源及其间的 判断的依据。根据式(1)进行极性投票判断。 关联进行建模(本文只考虑情感词和表情两种情绪 正,正情感词数-负情感词数>0 源)。因此本章从基于词典投票的分类模型,到加 文本极性= 中,正情感词数-负情感词数=0 入表情特征进行改进,近而引入后验概率联合建模 负,正情感词数-负情感词数<0 3个过程来介绍模型的产生原理,最后介绍多情绪 (1) 源关联模型的构建方法(算法将微博分为负面、中 如果将以上判断方法用概率模型进行表示,可 性和正面3种情感)。 以得到式(2)。 2.1原理框图 正,P(p)-P(n)>0 图1~3分别展示了3种情感分类模型的组成 原理,可以看出相比其他两类模型只考虑单一或者 微博极性=中,P(p)-P(n)=0 (2) 相互独立的情绪源特征,本文提出的多情绪源关联 负,P.(p)-P.(n)<0 模型综合考虑了不同情绪源及其之间的关联进行建 正情感词数 式中:Pp)=总情感词数 负情感词数 ,P.(n)= 模,并且在第2.4节的实验中证明了这种关联对于 总情感词数· 情感分析的作用。 2.2.2 否定词和感叹句分析 针对中文微博里存在否定词、感叹句等语法结
表 1 COAE2013 任务 1 最佳评测宏平均结果 Table 1 COAE2013 Task1 best evaluation results 参数 褒义 中性 贬义 准确率 0.741 0.445 0.836 召回率 0.619 0.725 0.464 F1 0.674 0.551 0.597 精度 0.615 最佳结果[ 1 1 ] 使用了集成学习的方法,通过多 次欠采样训练 NB、ME、SVM 基分类器,通过 product rule 融合多个基分类器。 该方法针对标注数据集较 少的情况,提高了分类器的鲁棒性和泛化能力。 在中文微博情感分析的多种方法中,SVM 方法 虽然引入了不同特征,但是认为特征之间相互独立; 基于规则投票的方法主要依赖情感词典和语法规 则,也有引入表情符号等情绪源的方法,但未考虑不 同情绪源之间的关联。 此外, 谢丽星等[1 2 ] 提出了基于层次结构的 SVM 分类方法,选取主题相关特征构建分类器对微 博情感进行三分类。 通过分句考虑了 3 类极性的句 子数目以及首尾句情感极性,并且依据主题选取了 多种特征训练分类器,在其数据集上达到 67.283% 的准确率。 但通过对我们的 6171 条微博进行分析 发现,句子数目大于 2 的微博仅占 12%,因此分句对 情感分析效果不大。 此外由于本文针对没有主题标 签的微博,因此最终在实验中选择文献[1 2 ] 中与主 题无关的不分句最佳特征 SVM 以及无关联多情绪 源模型作为对比方法。 2 算法实现 多情绪源关联模型受基于词典投票的情感分析 方法启发,对包括情感词在内的多情绪源及其间的 关联进行建模(本文只考虑情感词和表情两种情绪 源)。 因此本章从基于词典投票的分类模型,到加 入表情特征进行改进,近而引入后验概率联合建模 3 个过程来介绍模型的产生原理,最后介绍多情绪 源关联模型的构建方法(算法将微博分为负面、中 性和正面 3 种情感)。 2.1 原理框图 图 1 ~ 3 分别展示了 3 种情感分类模型的组成 原理,可以看出相比其他两类模型只考虑单一或者 相互独立的情绪源特征,本文提出的多情绪源关联 模型综合考虑了不同情绪源及其之间的关联进行建 模,并且在第 2.4 节的实验中证明了这种关联对于 情感分析的作用。 图 1 情感词投票模型 Fig.1 Word voting model 图 2 无关联模型 Fig.2 Uncorrelated model 图 3 多情绪源关联模型 Fig.3 Emotional multi⁃source correlation model 2.2 基于词典投票的情感分类模型 本节介绍了传统方法中基于情感词典投票的情 感分类模型,并对其进行了概率转换,再依据否定词 和感叹句对情感词极性进行了修正。 2.2.1 情感词典概率模型 基于情感词典的分析方法将情感词典中标注为 正负极性的情感词作为特征,先对文本进行分词(本 文中涉及的分词工具使用了中科院计算所开发的 IC⁃ TCLAS50 分词系统 http:/ / www.ictclas.org / ),将正负 情感词在文本中出现次数的差值作为文本正负情感 判断的依据。 根据式(1)进行极性投票判断。 文本极性 = 正,正情感词数 - 负情感词数 > 0 中,正情感词数 - 负情感词数 = 0 负,正情感词数 - 负情感词数 < 0 ì î í ï ï ïï (1) 如果将以上判断方法用概率模型进行表示,可 以得到式(2)。 微博极性 = 正,Pw (p) - Pw (n) > 0 中,Pw (p) - Pw (n) = 0 负,Pw (p) - Pw (n) < 0 ì î í ï ï ï ï (2) 式中: Pw (p) = 正情感词数 总情感词数 ,Pw (n) = 负情感词数 总情感词数 。 2.2.2 否定词和感叹句分析 针对中文微博里存在否定词、感叹句等语法结 ·548· 智 能 系 统 学 报 第 11 卷
第4期 李凌霄,等:基于多情绪源关联模型的中文微博情感分析 .549. 构的特点,本文对情感词的极性权值进行了修正。 5S8=argmax(o.P.p)+uPp))(3) 与文献[12]中类似,模型对否定词的出现进行 5g=argmax.(a.P.(n)+0,Pn))(4) 了处理,自定义了24个常用否定词,如表2所示,将 正,58-59>0 以否定词为中心,大小为3窗口的中出现的情感词 微博极性=中,Sg-S=0 (5) 极性反转。 表2自定义否定词表 负,S9-S8<0 Table 2 Custom privative words list 式中:Pp)= 正表情数 P(n)= 负表情数 总表情数 总表情数,“。和 自定义否定词 ω,为情感词和表情的权重系数,本文通过遍历系数 不、不会、不可能、不是、不应该、并非、并不、 空间选取准确率最高的系数值。 不、不会、没、无、非、莫、勿、未、否、别、无、不曾 2.4多情绪源关联模型 未必、没有、不要、难以、未曾、毫无、毫不 2.3节模型认为情感词与表情之间是相互独立 感叹句通常起到的是加强语义的作用,而对于 的,没有考虑情感词和表情之间的关联关系,以及这 语句的情感影响也会起到类似的加强效果。我们认 种关系对情感极性判断的影响,因此这里引入了后 为出现感叹句的句子中,情感词表达效果翻倍,因此 验概率对其进行修正。 使用了最为直接的处理方法,将感叹句中的情感词 表3给出了一个例子,在该例中,虽然出现的情 个数在原基础上乘以2。 感词都为正极性,但表情符号却只有负面表情,通过 2.3无关联的情感词和表情模型 2.3模型进行判断,将这条微博错分成负极性。 很多情况下,单独使用情感词难以判断微博所 表3无转折词的转折句实例 表达的极性,因此可以通过引入其他情绪源来综合 Table 3 Examples of transitional sentences without transi- 判断极性,我们考虑了表情符号作为联合特征,因为 tional words 表情和情感词在微博情感分析中具有如下优势互补 类型 实例 的特性。 天兔遇上给力的海航, 1)微博中情感词分布广泛,一条微博中往往包 终于跟坐快艇似的回到广州。杭州 含多个情感词。但仅利用情感词进行情感判别的缺 正面 之行说起来还算圆满吧,多年 点在于情感词典时效性差:情感新词出现较频繁,但 情感微博 未见的大学死党、越来越漂亮的 刚出现时数量少,使用基于统计的新词极性判别方法 老妹鱼头阿奋来平,还有闺蜜 在新词出现初始周期内难以对新词进行识别和判断。 菁菁茜女人想念大家了。表情:“泪” 正情感词 给力:圆满:漂亮 2)微博上表情符号的使用相对固定,但利用表 情进行情感判别的缺点在于一条微博中表情个数不 负表情符号 泪 多,同时并非所有微博都包含表情。 通过2.3中的方法,对这条微博的情感极性判 此外,经过试验表明,微博表情特征的以下特点 断为负,但实际极性为正面情感。我们引入了概率 也能够提升情感分类效果: 模型P(wf1p),P(wf1n)来增强类似的情感极 1)微博表情对情感的表达比文本更为直接和 性判断,构建了关联模型(6)~(8): 显著:例如微博“终于通关了色”,文本中并未出现 情感词,仅通过词典将其判断为中性情感,加入表情 P.(p)+orP(p)+P(pl wf) S。=argmax,y 特征后判断为正面情感。 normal 2)微博表情可能直接作为句子成分出现在句 (6) 子当中。例如“今天下雨了,不过”,这条微 w P (n)+orP (n)P(nl wf) S.argmax. 博将表情符号“太开心”作为句子成分加入转折句 normal 当中,最终表示了正极性情感。 (7) 因此我们对情感词和表情符号联合建模,以综合 正,S。-S.>0 利用二者在微博情感判断中的互补优势,和表情特征 微博极性=中,S。-Sn=0 (8) 的自身判别优点,具体模型如式(3)~(5)所示: 负,S。-Sn<0
构的特点,本文对情感词的极性权值进行了修正。 与文献[12]中类似,模型对否定词的出现进行 了处理,自定义了 24 个常用否定词,如表 2 所示,将 以否定词为中心,大小为 3 窗口的中出现的情感词 极性反转。 表 2 自定义否定词表 Table 2 Custom privative words list 自定义否定词 不、不会、不可能、不是、不应该、并非、并不、 不、不会、没、无、非、莫、勿、未、否、别、无、不曾、 未必、没有、不要、难以、未曾、毫无、毫不 感叹句通常起到的是加强语义的作用,而对于 语句的情感影响也会起到类似的加强效果。 我们认 为出现感叹句的句子中,情感词表达效果翻倍,因此 使用了最为直接的处理方法,将感叹句中的情感词 个数在原基础上乘以 2。 2.3 无关联的情感词和表情模型 很多情况下,单独使用情感词难以判断微博所 表达的极性,因此可以通过引入其他情绪源来综合 判断极性,我们考虑了表情符号作为联合特征,因为 表情和情感词在微博情感分析中具有如下优势互补 的特性。 1)微博中情感词分布广泛,一条微博中往往包 含多个情感词。 但仅利用情感词进行情感判别的缺 点在于情感词典时效性差:情感新词出现较频繁,但 刚出现时数量少,使用基于统计的新词极性判别方法 在新词出现初始周期内难以对新词进行识别和判断。 2)微博上表情符号的使用相对固定,但利用表 情进行情感判别的缺点在于一条微博中表情个数不 多,同时并非所有微博都包含表情。 此外,经过试验表明,微博表情特征的以下特点 也能够提升情感分类效果: 1)微博表情对情感的表达比文本更为直接和 显著;例如微博“终于通关了 ”,文本中并未出现 情感词,仅通过词典将其判断为中性情感,加入表情 特征后判断为正面情感。 2)微博表情可能直接作为句子成分出现在句 子当中。 例如“今天下雨了,不过 ”,这条微 博将表情符号“太开心”作为句子成分加入转折句 当中,最终表示了正极性情感。 因此我们对情感词和表情符号联合建模,以综合 利用二者在微博情感判断中的互补优势,和表情特征 的自身判别优点,具体模型如式(3) ~(5)所示: S 0 p = argmaxωw,ωf (ωw Pw (p) + ωf Pf (p) ) (3) S 0 n = argmaxωw,ωf (ωw Pw (n) + ωf Pf (n) ) (4) 微博极性 = 正,S 0 p - S 0 n > 0 中,S 0 p - S 0 n = 0 负,S 0 p - S 0 n < 0 ì î í ï ï ï ï (5) 式中: Pf (p) = 正表情数 总表情数 ,Pf (n) = 负表情数 总表情数 , ωw 和 ωf 为情感词和表情的权重系数,本文通过遍历系数 空间选取准确率最高的系数值。 2.4 多情绪源关联模型 2.3 节模型认为情感词与表情之间是相互独立 的,没有考虑情感词和表情之间的关联关系,以及这 种关系对情感极性判断的影响,因此这里引入了后 验概率对其进行修正。 表 3 给出了一个例子,在该例中,虽然出现的情 感词都为正极性,但表情符号却只有负面表情,通过 2.3 模型进行判断,将这条微博错分成负极性。 表 3 无转折词的转折句实例 Table 3 Examples of transitional sentences without transi⁃ tional words 类型 实例 正面 情感微博 天兔遇上给力的海航, 终于跟坐快艇似的回到广州。 杭州 之行说起来还算圆满吧,多年 未见的大学死党、越来越漂亮的 老妹鱼头阿奋来平,还有闺蜜 菁菁茜女人想念大家了。 表情:“泪” 正情感词 给力;圆满;漂亮 负表情符号 泪 通过 2.3 中的方法,对这条微博的情感极性判 断为负,但实际极性为正面情感。 我们引入了概率 模型 P(w,f | p) ,P(w,f | n) 来增强类似的情感极 性判断,构建了关联模型(6) ~ (8): Sp = argmaxωw,ωf ωw Pw (p) + ωf Pf (p) + P(p | w,f) normal (6) Sn = argmaxωw,ωf ωw Pw (n) + ωf Pf (n) + P(n | w,f) normal (7) 微博极性 = 正,Sp - Sn > 0 中,Sp - Sn = 0 负,Sp - Sn < 0 ì î í ï ï ï ï (8) 第 4 期 李凌霄,等: 基于多情绪源关联模型的中文微博情感分析 ·549·
550· 智能系统学报 第11卷 式中:normal为归一化因子。 s=P.0)+Pm)+P(of1m) normal [o P.(p)+oP(p)+P(pl w,f)] normal [o P.(n)+oP (n)+P(nI wf) 0+1.5+0 P(plw)和P(nlw,)计算如下(默认Pp)= (1+0+1)+(0+1.5+0)=0.43 P(n)=0.5): S。-S。=0.14>0,最终结果为正性(本数据集下,取 P(p=P()P(p)=P()P(p)= ω.=1,w,=1.5)。分类正确的原因是通过“泪”与 P(wf) 上述情感词之间的关联性,考虑了“泪”与上述情感 P(wf.p)P(p)=P(wIS.p)P(fI p)P(p)= 词出现情况下,分类为正极性的概率。 P(P) 多情绪源关联模型不限于情感词和表情符号两 .IIIIP IIPP) (9) 个情绪源,可以通过加入更多的情绪源,例如图片、 视频等,来拓展关联模型。 类似地 P(n=P(f n)P(n) 3实验结果与分析 P(wf) 3.1实验数据及验证方法 P(f)P(n)=P(n)P(n)= 上文中提及的COAE评测给出了公共数据集, P(n) P(wlf,n)P(fln)P(n)≡ 但由于其数据集中所包含的有表情微博数量十分稀 少,不适合测试本方法,因此本文通过新浪微博API 0.5ΠΠP(w:1,n)ΠPG1) (10) 爬取微博信息,并对爬取的6171条微博进行了人 式中:α和b分别表示一条微博中情感词和表情符号 工标注,经过统计,微博数据来自社会、电影、电视 的个数。而P(:If,P)P(Ip)P(0:Ij,n)、 剧、美食、娱乐八卦、科技等多个领域。 P(GIn)是对数据集进行统计后得出的结果。该 所选择数据集中正极性微博所占比例偏大,中 模型认为词与词(表情与表情)之间相互独立:但是 极性比例偏小,并且含有表情的微博较多(主要分 词与表情、词与微博极性、表情与微博极性之间存在 布于电影、电视剧、娱乐八卦和美食等领域),但用 关联,用情感词与表情之间的关联得出的结果来改 于比较的各个分类方法所用数据集相同,不会对结 善原始结果。 果比较造成影响。 此外,为了消除P(pI0f)与P(nI0)中多 我们所使用的情感词典为大连理工大学中文情 小数相乘使值过小的问题,实际计算时,取 感词汇本体库htp:/ir.dlut.edu.cn/EmotionOntolo- P(pl w,f) gyDownload.aspx?以及自定义的少量新词(如坑爹、 Pplw月-P(pIw)+P(nI 给力等),一共27488个(正极性词13556个,负极 P(nl wf) 性词13932个)。在分词时,使用ICTCLAS:50自定 P(nI)=P(pI+P(nI 义词典接口,调用了情感词典和否定词典。 在表3所示的示例中,使用2.3节中的方法进 模型中,使用表情符号和情感词进行了联合建 行极性判断,结果如下: 模,表情符号选择微博常用表情中默认的50个表情 $=.P.0)+@,P0)=10x+0=10 符号,如(正性)和©(负性)。如表4。 表4实验数据极性分布 s8=a.P.(m)+aPn)=0+1.5× -=1.5 Table 4 Dataset sentiment polarity distribution 1 极性 微博数目 比例/% 因此,S-S。<0,33判断为负极性,而在关联 正极性 4196 67.9 模型中:P(plw)=1,P(nlw,f)=0,S。-Sn=0 中性 621 10.0 S=o.P.p)+9Pp)+P(ufIp) 负极性 1354 21.9 含表情微博 5182 84 normal 1+0+1 3.2对比实验说明 1+0+1)+(0+1.5+0)=0.57 对比实验1采用文献[12]中一步三分类最佳特
式中: normal 为归一化因子。 normal = [ωw Pw (p) + ωf Pf (p) + P(p | w,f) ] + [ωw Pw (n) + ωf Pf (n) + P(n | w,f) ] P(p | w,f) 和 P(n | w,f) 计算如下( 默认 P(p) = P(n) = 0.5): P(p | w,f) = P(w,f | p) P(p) P(w,f) ≅ P(w,f | p) P(p) = P(w,f,p) P(p) P(p) = P(w | f,p) P(f | p) P(p) ≅ 0.5∏ a i = 1 ∏ b j = 1 P wi | f ( j,p) ∏ b j = 1 P f j ( | p) (9) 类似地 P(n | w,f) = P(w,f | n) P(n) P(w,f) ≅ P(w,f | n) P(n) = P(w,f,n) P(n) P(n) = P(w | f,n) P(f | n) P(n) ≅ 0.5∏ a i = 1 ∏ b j = 1 P wi | f ( j,n) ∏ b j = 1 P f j ( | n) (10) 式中: a 和 b 分别表示一条微博中情感词和表情符号 的 个 数。 而 P wi | f ( j,p) 、P f j ( | p) 、P wi | f ( j,n) 、 P f j ( | n) 是对数据集进行统计后得出的结果。 该 模型认为词与词(表情与表情)之间相互独立;但是 词与表情、词与微博极性、表情与微博极性之间存在 关联,用情感词与表情之间的关联得出的结果来改 善原始结果。 此外,为了消除 P(p | w,f) 与 P(n | w,f) 中多 小数相乘使值过小的问题,实际计算时,取 P(p | w,f) = P(p | w,f) P(p | w,f) + P(n | w,f) P(n | w,f) = P(n | w,f) P(p | w,f) + P(n | w,f) 在表 3 所示的示例中,使用 2.3 节中的方法进 行极性判断,结果如下: S 0 p = ωw Pw (p) + ωf Pf (p) = 1.0 × 3 3 + 0 = 1.0 S 0 n = ωw Pw (n) + ωf Pf (n) = 0 + 1.5 × 1 1 = 1.5 因此,S 0 p - S 0 n < 0,3.3 判断为负极性 ,而在关联 模型中: P(p | w,f) = 1,P(n | w,f) = 0, Sp - Sn = 0 Sp = ωw Pw (p) + ωf Pf (p) + P(w,f | p) normal = 1 + 0 + 1 (1 + 0 + 1) + (0 + 1.5 + 0) = 0.57 Sn = ωw Pw (n) + ωf Pf (n) + P(w,f | n) normal = 0 + 1.5 + 0 (1 + 0 + 1) + (0 + 1.5 + 0) = 0.43 Sp - Sn = 0.14 > 0,最终结果为正性(本数据集下,取 ωw = 1, ωf = 1.5)。 分类正确的原因是通过“泪”与 上述情感词之间的关联性,考虑了“泪”与上述情感 词出现情况下,分类为正极性的概率。 多情绪源关联模型不限于情感词和表情符号两 个情绪源,可以通过加入更多的情绪源,例如图片、 视频等,来拓展关联模型。 3 实验结果与分析 3.1 实验数据及验证方法 上文中提及的 COAE 评测给出了公共数据集, 但由于其数据集中所包含的有表情微博数量十分稀 少,不适合测试本方法,因此本文通过新浪微博 API 爬取微博信息,并对爬取的 6 171 条微博进行了人 工标注,经过统计,微博数据来自社会、电影、电视 剧、美食、娱乐八卦、科技等多个领域。 所选择数据集中正极性微博所占比例偏大,中 极性比例偏小,并且含有表情的微博较多(主要分 布于电影、电视剧、娱乐八卦和美食等领域),但用 于比较的各个分类方法所用数据集相同,不会对结 果比较造成影响。 我们所使用的情感词典为大连理工大学中文情 感词汇本体库 http: / / ir. dlut. edu. cn / EmotionOntolo⁃ gyDownload.aspx? 以及自定义的少量新词(如坑爹、 给力等),一共 27 488 个(正极性词 13 556 个,负极 性词 13 932 个)。 在分词时,使用 ICTCLAS50 自定 义词典接口,调用了情感词典和否定词典。 模型中,使用表情符号和情感词进行了联合建 模,表情符号选择微博常用表情中默认的 50 个表情 符号,如 (正性)和 (负性)。 如表 4。 表 4 实验数据极性分布 Table 4 Dataset sentiment polarity distribution 极性 微博数目 比例/ % 正极性 4 196 67.9 中性 621 10.0 负极性 1 354 21.9 含表情微博 5 182 84 3.2 对比实验说明 对比实验 1 采用文献[1 2 ]中一步三分类最佳特 ·550· 智 能 系 统 学 报 第 11 卷