第12卷第5期 智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201312032 网络出版地址:http:/kns.cmki.net/kcms/detail/23.1538.TP.20171021.1342.002.html 一种基于OCC模型的文本情感挖掘方法 皇甫璐雯,毛文吉 (中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京100190) 摘要:观点挖掘(或情感分析)作为面向网络社会媒体分析挖掘领域的一个核心研究课题,具有重要的研究意义和 应用价值。针对传统观点挖掘方法存在的不足和局限性,本文设计并实现了一种基于OCC情感模型的观点挖掘方 法。该方法首先采用统计方法,利用WordNet词典、句法依存关系及少量标注数据,自动构建情感维度词典:其次,对 所构建的情感维度词典进行求精,通过语义、情感倾向的不一致性处理和非情感词的过滤,得到高质量的情感维度 词典:最后,基于所得到的情感维度词典,结合0CC模型中情感维度值与情感类型的对应关系,生成6种主要的情感 类型。实验方法表明,此方法在使用灵活性、可解释性和有效性上具有明显的优势。 关键词:观点挖掘;0CC情感模型:情感维度:情感类型:情感词典;认知心理学;情感挖掘;共现 中图分类号:TP391文献标志码:A文章编号:1673-4785(2017)05-0645-08 中文引用格式:皇甫璐雯,毛文吉.一种基于0CC模型的文本情感挖掘方法[J].智能系统学报,2017,12(5):645-652 英文引用格式:HUANGFU Luwen,MAO Wenji.OCC-model-based text-emotion mining method[J].CAAI transactions on intelligent systems,2017,12(5):645-652. OCC-model-based text-emotion mining method HUANGFU Luwen,MAO Wenji (State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Science,Beijing 100190,China) Abstract:Opinion mining,also called sentiment analysis,as one of the core research areas in the network-oriented social media analysis and mining domain,has important practical and research significance.Due to the weaknesses and limitations of traditional opinion mining methods,in this study,we designe and implemente an OCC emotion model-based opinion mining method for extracting emotion types from text.First,we adopte a statistical method to construct an emotion dictionary,based on candidate sets collected by the WordNet dictionary,as well as several syntactic dependent relationships and a small amount of annotated data.Next,we refine the constructed emotion- dimension dictionary to improve its quality by filtering out non-emotional words as well as emotional words that have conflicting syntactic or orientation.Lastly,we generate six main emotion types based on the obtained emotion- dimension dictionary combined with the corresponding relations between emotional dimensions and the different emotion types identified by the OCC model.Experimental results show that the proposed method has obvious advantages with respect to flexibility of usage,interpretability,and effectiveness. Keywords:opinion mining;OCC emotion model;emotional dimension;emotion types;emotion dictionary; cognitive psychology;emotion mining;co-occurrence 近年来,社会媒体迅猛发展并快速渗透到了社 值的信息,而且其数量随时间累积呈指数级增长。 会、经济、政治、文化等各方面,互联网用户产生的 这些信息主要是用户的主观性观点,与客观的事实 内容中包含大量关于用户意见、态度、情绪等有价 有很大的不同。这些包含用户观点的海量数据蕴 含着巨大的实际应用价值,亟需自动化的计算分析 收稿日期:2013-12-17.网络出版日期:2017-10-21. 与处理技术,这种现象促进了观点挖掘与情感分析 基金项目:国家自然科学基金项目(61175040,71025001). 通信作者:毛文吉.E-mail:wenji.mao@ia.ac.cn 这一新兴研究领域的蓬勃发展。目前,观点挖掘
第 12 卷第 5 期 智 能 系 统 学 报 Vol.12 №.5 2017 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2017 DOI:10.11992 / tis.201312032 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20171021.1342.002.html 一种基于 OCC 模型的文本情感挖掘方法 皇甫璐雯,毛文吉 (中国科学院自动化研究所 复杂系统管理与控制国家重点实验室,北京 100190) 摘 要:观点挖掘(或情感分析)作为面向网络社会媒体分析挖掘领域的一个核心研究课题,具有重要的研究意义和 应用价值。 针对传统观点挖掘方法存在的不足和局限性,本文设计并实现了一种基于 OCC 情感模型的观点挖掘方 法。 该方法首先采用统计方法,利用 WordNet 词典、句法依存关系及少量标注数据,自动构建情感维度词典;其次,对 所构建的情感维度词典进行求精,通过语义、情感倾向的不一致性处理和非情感词的过滤,得到高质量的情感维度 词典;最后,基于所得到的情感维度词典,结合 OCC 模型中情感维度值与情感类型的对应关系,生成 6 种主要的情感 类型。 实验方法表明,此方法在使用灵活性、可解释性和有效性上具有明显的优势。 关键词:观点挖掘;OCC 情感模型;情感维度;情感类型;情感词典;认知心理学;情感挖掘;共现 中图分类号:TP391 文献标志码:A 文章编号:1673-4785(2017)05-0645-08 中文引用格式:皇甫璐雯,毛文吉.一种基于 OCC 模型的文本情感挖掘方法[J]. 智能系统学报, 2017, 12(5): 645-652. 英文 引 用 格 式: HUANGFU Luwen, MAO Wenji. OCC⁃model⁃based text⁃emotion mining method [ J ]. CAAI transactions on intelligent systems, 2017, 12(5): 645-652. OCC⁃model⁃based text⁃emotion mining method HUANGFU Luwen, MAO Wenji ( State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Science, Beijing 100190, China) Abstract:Opinion mining, also called sentiment analysis, as one of the core research areas in the network⁃oriented social media analysis and mining domain, has important practical and research significance. Due to the weaknesses and limitations of traditional opinion mining methods, in this study, we designe and implemente an OCC emotion model⁃based opinion mining method for extracting emotion types from text. First, we adopte a statistical method to construct an emotion dictionary, based on candidate sets collected by the WordNet dictionary, as well as several syntactic dependent relationships and a small amount of annotated data. Next, we refine the constructed emotion⁃ dimension dictionary to improve its quality by filtering out non⁃emotional words as well as emotional words that have conflicting syntactic or orientation. Lastly, we generate six main emotion types based on the obtained emotion - dimension dictionary combined with the corresponding relations between emotional dimensions and the different emotion types identified by the OCC model. Experimental results show that the proposed method has obvious advantages with respect to flexibility of usage, interpretability, and effectiveness. Keywords: opinion mining; OCC emotion model; emotional dimension; emotion types; emotion dictionary; cognitive psychology; emotion mining; co⁃occurrence 收稿日期:2013-12-17. 网络出版日期:2017-10-21. 基金项目:国家自然科学基金项目(61175040, 71025001). 通信作者:毛文吉. E⁃mail:wenji.mao@ ia.ac.cn. 近年来,社会媒体迅猛发展并快速渗透到了社 会、经济、政治、文化等各方面,互联网用户产生的 内容中包含大量关于用户意见、态度、情绪等有价 值的信息,而且其数量随时间累积呈指数级增长。 这些信息主要是用户的主观性观点,与客观的事实 有很大的不同。 这些包含用户观点的海量数据蕴 含着巨大的实际应用价值,亟需自动化的计算分析 与处理技术,这种现象促进了观点挖掘与情感分析 这一新兴研究领域的蓬勃发展。 目前,观点挖掘
·646 智能系统学报 第12卷 (或情感分析)【]已成为社会媒体分析挖掘领域的 OCC情感模型的观点挖掘方法。 一个核心研究课题,其研究成果已应用于用户观点 1 情感的认知结构模型OCC 发现、产品评论分析及社会舆情监控等领域,并在 推动社会和谐发展、改善人们生活方面发挥重要 认知评估理论[02]是认知心理学研究中最为 作用)。 成熟和影响最广的情感理论。认知评估理论认为 互联网中的文本数据大致可以分为两类:一类 评估过程是个体评价其与所处环境间的关系,包括 用来陈述客观性的事实,另一类用来表达主观性的 目前的条件、导致当前状态的事件和对未来的预 观,点。相对于客观性的事实数据,主观性的观点数 期。评估理论认为评估本身尽管不是一个慎思的 据由于其内在的复杂性,在研究方法和技术上与前 过程,但其确实由认知的过程提供信息,尤其是那 者区别较大。目前观点挖掘分为两类工作:识别观 些参与理解和与环境交互的过程。评估将这些异 点的正负极性和文本中的情感类型。文本中的情 类过程的特征映射到一个共同的中介术语集(即维 感类型比正负极性包含更为丰富的信息,因而挖掘 度变量)。这些维度变量作为个体与环境之间关系 文本中的情感类型更具有挑战性,但往往需要大量 的中介描述,在刺激源和反应之间进行协调。维度 的手工标注数据,并且所获得的情感类型常常缺乏 变量刻画了对个体而言事件的重要特征。 可解释性。 认知评估理论中的不同情感模型采用了不同 挖掘观点正负极性的方法主要有文档级观点 的情感维度变量,但它们所使用的情感维度变量间 挖掘)、语句级观点挖掘s-】、基于情感对象特征 有很大的相似性,其中文献[23]工作中的分类最 的观点挖掘o等。Turney!提出了一种利用非监 全,包括相关性(relevance)、合意性(desirability)、行 督学习方法计算词之间的互信息(PM)来判断整个 动性(actionability)、责备/褒奖(praise/blame- 文档的正负极性。Pang等[)提出采用多种机器学 worthiness)、可能性(likelihood)、意外性 习方法分类每篇电影评论的正负极性。Wiebe等[] (unexpectedness)、自我投入(ego-involvement)、可 通过大量数据集学习线索和特征,区分主观观点和 控性(controllability)、权力(power)、适应性 客观事实,并在语句级判断观点的正负极性。Zhang (adaptability)。 等)提出利用词之间的依赖关系分析中文语句的 不同的情感维度变量及其取值产生不同的情 正负倾向性。H山等[)利用频繁挖掘算法获得情感 感类型。比如,在一个具体的经济环境下,“赔钱” 对象特征,再利用语义词典确定情感词的正负极 是个不合人意的事件,并导致负性情感评估。在此 性,从而输出针对每个情感对象特征的相关正负 情形下,其他变量的不同取值可引发不同的情感评 评论。 估。诸如,如果可能性是不确定的,引发“恐惧” 挖掘文本中情感类型的方法主要包括基于统 (fear)情感,否则引发“悲伤”(distress)情感。自我 计的方法[)、机器学习方法[13-6]、基于情感结构/ 的行动带来应受到责备的行为后果引发“羞耻” 模型的方法[16-]等。基于机器学习的情感类型挖 (shame),如果事件是不合己意的,则带来“悔恨” 掘工作主要采用分类学习算法[13-14,6,18- (remorse)。如果不合己意的事件带来的后果是他 Mostafa[7J提出了一种基于情感模型的方法,该方法 人应受到责备的行为引发的,则导致“生气” 利用大量的手工标注数据,并基于主要的情感变量 (anger)情感。 计算语句中几乎所有词的情感变量值,进而计算得 OCC情感模型[2]是认知心理学中经典的情感 到整个语句的情感类型。但是,这种方法不但需要 认知结构模型,也是在计算领域近年来采用最多的 大量人力,费时费力,而且不加区分地计算句子中 心理学情感模型,在情感的计算建模中有着非常广 出现的词,导致该方法的效率和性能较低。 泛的应用。 综上,观点倾向性的传统挖掘方法主要关注观 OCC情感模型的整个层次结构主要包括3个 点的正负极性而忽略了其丰富的情感类型:已有的 部分:与事件结果相关的情感,与智能体行为相关 情感类型挖掘尽管能够输出丰富的情感类型,但是 的情感和与对象属性相关的情感。这3个部分也可 需要大量的标注数据支持。此外,以往工作几乎都 以结合起来组合成更为复杂的情感类型。该模型 未考虑情感认知理论模型在观点挖掘和情感分析 共描述了22种不同情感类型的认知结构。OCC模 中的重要作用。因此,为了更好地实现从网上文本 型中每个情感类型的出现都由一定的条件触发,这 数据中挖掘出丰富的情感类型,文中提出一种基于 些条件通过不同的情感维度值表达。其中,“合意
(或情感分析) [1-2]已成为社会媒体分析挖掘领域的 一个核心研究课题,其研究成果已应用于用户观点 发现、产品评论分析及社会舆情监控等领域,并在 推动社会和谐发展、改善人们生活方面发挥重要 作用[3] 。 互联网中的文本数据大致可以分为两类:一类 用来陈述客观性的事实,另一类用来表达主观性的 观点。 相对于客观性的事实数据,主观性的观点数 据由于其内在的复杂性,在研究方法和技术上与前 者区别较大。 目前观点挖掘分为两类工作:识别观 点的正负极性和文本中的情感类型。 文本中的情 感类型比正负极性包含更为丰富的信息,因而挖掘 文本中的情感类型更具有挑战性,但往往需要大量 的手工标注数据,并且所获得的情感类型常常缺乏 可解释性。 挖掘观点正负极性的方法主要有文档级观点 挖掘[3-4] 、语句级观点挖掘[5-8] 、基于情感对象特征 的观点挖掘[9-10]等。 Turney [4]提出了一种利用非监 督学习方法计算词之间的互信息(PMI)来判断整个 文档的正负极性。 Pang 等[3] 提出采用多种机器学 习方法分类每篇电影评论的正负极性。 Wiebe 等[8] 通过大量数据集学习线索和特征,区分主观观点和 客观事实,并在语句级判断观点的正负极性。 Zhang 等[11]提出利用词之间的依赖关系分析中文语句的 正负倾向性。 Hu 等[9] 利用频繁挖掘算法获得情感 对象特征,再利用语义词典确定情感词的正负极 性,从而输出针对每个情感对象特征的相关正负 评论。 挖掘文本中情感类型的方法主要包括基于统 计的方法[12] 、机器学习方法[13-16] 、基于情感结构/ 模型的方法[16-17] 等。 基于机器学习的情感类型挖 掘 工 作 主 要 采 用 分 类 学 习 算 法[13-14,16,18-19] 。 Mostafa [17]提出了一种基于情感模型的方法,该方法 利用大量的手工标注数据,并基于主要的情感变量 计算语句中几乎所有词的情感变量值,进而计算得 到整个语句的情感类型。 但是,这种方法不但需要 大量人力,费时费力,而且不加区分地计算句子中 出现的词,导致该方法的效率和性能较低。 综上,观点倾向性的传统挖掘方法主要关注观 点的正负极性而忽略了其丰富的情感类型;已有的 情感类型挖掘尽管能够输出丰富的情感类型,但是 需要大量的标注数据支持。 此外,以往工作几乎都 未考虑情感认知理论模型在观点挖掘和情感分析 中的重要作用。 因此,为了更好地实现从网上文本 数据中挖掘出丰富的情感类型,文中提出一种基于 OCC 情感模型的观点挖掘方法。 1 情感的认知结构模型 OCC 认知评估理论[20-23] 是认知心理学研究中最为 成熟和影响最广的情感理论。 认知评估理论认为 评估过程是个体评价其与所处环境间的关系,包括 目前的条件、导致当前状态的事件和对未来的预 期。 评估理论认为评估本身尽管不是一个慎思的 过程,但其确实由认知的过程提供信息,尤其是那 些参与理解和与环境交互的过程。 评估将这些异 类过程的特征映射到一个共同的中介术语集(即维 度变量)。 这些维度变量作为个体与环境之间关系 的中介描述,在刺激源和反应之间进行协调。 维度 变量刻画了对个体而言事件的重要特征。 认知评估理论中的不同情感模型采用了不同 的情感维度变量,但它们所使用的情感维度变量间 有很大的相似性,其中文献[23] 工作中的分类最 全,包括相关性(relevance)、合意性(desirability)、行 动 性 ( actionability )、 责 备/ 褒 奖 ( praise / blame⁃ worthiness )、 可 能 性 ( likelihood )、 意 外 性 (unexpectedness)、自我投入( ego -involvement)、可 控 性 ( controllability )、 权 力 ( power )、 适 应 性 (adaptability)。 不同的情感维度变量及其取值产生不同的情 感类型。 比如,在一个具体的经济环境下,“赔钱” 是个不合人意的事件,并导致负性情感评估。 在此 情形下,其他变量的不同取值可引发不同的情感评 估。 诸如,如果可能性是不确定的,引发 “ 恐惧” (fear)情感,否则引发“悲伤” ( distress)情感。 自我 的行动带来应受到责备的行为后果引发“ 羞耻” (shame),如果事件是不合己意的,则带来“悔恨” (remorse)。 如果不合己意的事件带来的后果是他 人应受 到 责 备 的 行 为 引 发 的, 则 导 致 “ 生 气” (anger)情感。 OCC 情感模型[21] 是认知心理学中经典的情感 认知结构模型,也是在计算领域近年来采用最多的 心理学情感模型,在情感的计算建模中有着非常广 泛的应用。 OCC 情感模型的整个层次结构主要包括 3 个 部分:与事件结果相关的情感,与智能体行为相关 的情感和与对象属性相关的情感。 这 3 个部分也可 以结合起来组合成更为复杂的情感类型。 该模型 共描述了 22 种不同情感类型的认知结构。 OCC 模 型中每个情感类型的出现都由一定的条件触发,这 些条件通过不同的情感维度值表达。 其中,“合意 ·646· 智 能 系 统 学 报 第 12 卷
第5期 皇甫璐雯,等:一种基于OCC模型的文本情感挖掘方法 .647. 性(desirability)”“褒贬性(praise-/blame- 的情感类型挖掘问题可以分解成两个子问题:1)自 worthiness)”和“可能性(likelihood)”是该模型中3 动构建高质量的情感维度词典,即建立包括具体的 个最为重要的情感维度变量。“合意性”与主体的 词和抽象的情感维度值之间的映射关系:2)基于 目标相关联,“褒贬性”与行为是否符合社会道德标 OCC模型,以规则的形式建立情感维度值与情感类 准相关联,而“可能性”则表示对事件发生的期望。 型间的对应关系。构建情感维度词典则是建立文 在情感认知结构理论中,每个情感维度变量有 本情感类型识别系统的关键。情感维度词典涵盖 不同的取值。“合意性(desirability)”维度的取值包 了比通常仅包含正负极性的情感词库更丰富的信 括“合意的(desirable)”和“不合意的 息,所以在构建情感维度词典时,综合考虑了依存 (undesirable)”。当某些事件的发生有利于最终目 句法关系、语义关系和统计信息。由于构建后的情 标的实现时,这种情况对于主体而言是合意的;反 感维度词典存在语义、情感倾向的不一致性等问 之则是不合意的。类似地,“褒贬性(praise-./blame- 题,因此还需要对情感维度词典进一步求精,过滤 worthiness)”维度的取值有“值得称赞的 掉低质量的候选词。 (praiseworthy)”和“应受责备的(blameworthy)”。 图1是基于OCC情感模型的观点挖掘方法的 “可能性(likelihood)”维度有“可能的(likely)”和 数据流图,主要由情感维度词典的构建、求精和情 “确定的(certain)”这两个取值。情感维度变量的 感类型的生成3个模块组成。该方法基于海量开源 不同取值及其组合可以生成不同的情感类型。例 文本输入,以句子为单位输出情感类型及其关联的 如,如果“合意的”事件的可能性是“确定的”,引发 情感对象。其中,情感维度词典的构建模块利用通 “高兴(joy)”情感;否则引发“希望(hope)”。如果 用语义词典和句法依存关系建立关于各情感维度 个体“值得表扬的(praiseworthy)”行为带来合乎自 值的词典,情感维度词典的求精模块包括语义、正 己心意的行为后果,则导致“骄傲(pide)”情感的产 负情感倾向的不一致性处理和非情感词的过滤。 生。表1给出了3个情感维度变量与情感类型之间 针对前2个模块,文中还提出了融合Bootstrapping 的对应关系。 的构建与求精同步的改进算法。情感类型的生成 表13个情感维度变量及其对应的情感类型 模块基于前2个模块得到情感维度词典,利用经典 Table 1 Three emotional dimension variables and their 的OCC情感模型,获得情感类型。最后,得到情感 corresponding emotion types 类型与情感对象相结合的输出结果,以满足用户 合意性 褒贬性 可能性 情感类型 需求。 合意的 确定的 高兴 不合意的 确定的 悲伤 ·情感对象识别 合意的 可能的 希望 不合意的 可能的 恐惧 句法 WordNet OCC情感 情感 合意的 值得称赞的 确定的 骄傲 词典 模型 规则 不合意的 应受责备的 确定的 羞耻 表1左边3列是情感维度取值列表,右边一列 输出 物建维 生成情感 是在特定的情感维度取值下所产生的情感类型。 情感 技1可具现 类型 情感维 对象 本文的研究思路基于经典的OCC情感模型,选取其 高兴·悲 求精 世可曲 型 最主要的3个情感维度,以挖掘文中包含的这3类 子词 度词典 DUPBL 骄傲·羞 维度变量的情感。 词为重点,通过建立相应的情感维度词典,自 图1 基于OCC模型的本文情感挖掘方法 动推演出6种主要的情感类型:高兴(jy)、悲伤 Fig.1 OCC model-based emotion mining method from texts (distress)、希望(hope)、恐惧(fear)、骄傲(pride)和 2.1情感维度词典的构建与求精 羞耻(shame)。 情感维度词典是基于WordNet词典和句法依存 关系,采用统计的方法自动构建的。WordNet词典 2基于OCC模型的情感挖掘方法 可以提供词的语义解释和词之间的关系,有同义 结合前面介绍的OCC情感认知结构模型,建立 词、反义词、还原词、派生词等。句法依存关系是 自动识别文本中情感类型的方法。基于OCC模型 指,通过句法分析树中得到的词之间存在的联系
性 ( desirability )” “ 褒 贬 性 ( praise⁃/ blame⁃ worthiness)”和“可能性( likelihood)” 是该模型中 3 个最为重要的情感维度变量。 “合意性” 与主体的 目标相关联,“褒贬性”与行为是否符合社会道德标 准相关联,而“可能性”则表示对事件发生的期望。 在情感认知结构理论中,每个情感维度变量有 不同的取值。 “合意性( desirability)”维度的取值包 括 “ 合 意 的 ( desirable )” 和 “ 不 合 意 的 (undesirable)”。 当某些事件的发生有利于最终目 标的实现时,这种情况对于主体而言是合意的;反 之则是不合意的。 类似地,“褒贬性( praise⁃/ blame⁃ worthiness)” 维 度 的 取 值 有 “ 值 得 称 赞 的 (praiseworthy)” 和 “ 应 受 责 备 的 ( blameworthy )”。 “可能性( likelihood)” 维度有“可能的( likely)” 和 “确定的( certain)” 这两个取值。 情感维度变量的 不同取值及其组合可以生成不同的情感类型。 例 如,如果“合意的”事件的可能性是“确定的”,引发 “高兴( joy)”情感;否则引发“希望( hope)”。 如果 个体“值得表扬的( praiseworthy)” 行为带来合乎自 己心意的行为后果,则导致“骄傲(pride)”情感的产 生。 表 1 给出了 3 个情感维度变量与情感类型之间 的对应关系。 表 1 3 个情感维度变量及其对应的情感类型 Table 1 Three emotional dimension variables and their corresponding emotion types 合意性 褒贬性 可能性 情感类型 合意的 — 确定的 高兴 不合意的 — 确定的 悲伤 合意的 — 可能的 希望 不合意的 — 可能的 恐惧 合意的 值得称赞的 确定的 骄傲 不合意的 应受责备的 确定的 羞耻 表 1 左边 3 列是情感维度取值列表,右边一列 是在特定的情感维度取值下所产生的情感类型。 本文的研究思路基于经典的 OCC 情感模型,选取其 最主要的 3 个情感维度,以挖掘文中包含的这 3 类 维度变量的情感。 词为重点,通过建立相应的情感维度词典,自 动推演出 6 种主要的情感类型:高兴( joy)、悲伤 (distress)、希望(hope)、恐惧( fear)、骄傲( pride)和 羞耻(shame)。 2 基于 OCC 模型的情感挖掘方法 结合前面介绍的 OCC 情感认知结构模型,建立 自动识别文本中情感类型的方法。 基于 OCC 模型 的情感类型挖掘问题可以分解成两个子问题:1)自 动构建高质量的情感维度词典,即建立包括具体的 词和抽象的情感维度值之间的映射关系;2) 基于 OCC 模型,以规则的形式建立情感维度值与情感类 型间的对应关系。 构建情感维度词典则是建立文 本情感类型识别系统的关键。 情感维度词典涵盖 了比通常仅包含正负极性的情感词库更丰富的信 息,所以在构建情感维度词典时,综合考虑了依存 句法关系、语义关系和统计信息。 由于构建后的情 感维度词典存在语义、情感倾向的不一致性等问 题,因此还需要对情感维度词典进一步求精,过滤 掉低质量的候选词。 图 1 是基于 OCC 情感模型的观点挖掘方法的 数据流图,主要由情感维度词典的构建、求精和情 感类型的生成 3 个模块组成。 该方法基于海量开源 文本输入,以句子为单位输出情感类型及其关联的 情感对象。 其中,情感维度词典的构建模块利用通 用语义词典和句法依存关系建立关于各情感维度 值的词典,情感维度词典的求精模块包括语义、正 负情感倾向的不一致性处理和非情感词的过滤。 针对前 2 个模块,文中还提出了融合 Bootstrapping 的构建与求精同步的改进算法。 情感类型的生成 模块基于前 2 个模块得到情感维度词典,利用经典 的 OCC 情感模型,获得情感类型。 最后,得到情感 类型与情感对象相结合的输出结果,以满足用户 需求。 图 1 基于 OCC 模型的本文情感挖掘方法 Fig.1 OCC model⁃based emotion mining method from texts 2.1 情感维度词典的构建与求精 情感维度词典是基于 WordNet 词典和句法依存 关系,采用统计的方法自动构建的。 WordNet 词典 可以提供词的语义解释和词之间的关系,有同义 词、反义词、还原词、派生词等。 句法依存关系是 指,通过句法分析树中得到的词之间存在的联系, 第 5 期 皇甫璐雯,等:一种基于 OCC 模型的文本情感挖掘方法 ·647·
648 智能系统学报 第12卷 可以提示词之间潜在的关系。 度词典候选集进行评价与过滤,选取其中评分大于 为自动构建情感维度词典,首先手工挑选少量 阈值的候选集中的情感词,放入相应的情感维度词 高质量的情感维度值种子词(不超过10个)和4个 典中: 依存关系模板。其中,关于每个情感维度值的种子 ∑c(w,u) DIC∑ c(v,u 词包含词的原型和词性信息。加入词性信息是因 f八v∈DICs)= u壁DIC 为相同的词在词性不同的时候含义大不相同,例 ∑c(, IDICI∑c(u,w) 如:sentence做动词时,意思为“判刑”,维度是 (1) Blameworthy;但是做名词时,意思为“句子”,可以认 4)不断重复步骤2)~3),直到不再有新的情感 为不是情感词。4个依存关系包括conj_and、conj 维度词加入; or、prep_in和parataxis。其含义分别是词之间的并 5)利用WordNet中的派生以及还原关系扩充 列and关系、词之间的并列or关系、词之间的介词 情感维度词典。 i关系和2个词在分句中所处的并列关系。然而, 构建情感维度词典过程中的输入是海量的文 仅仅依靠依存关系可能会有一些问题。比如,简单 本和关于某个情感维度值的种子词,输出是针对这 的并列关系“wonderful and exciting'”中wonderful和 个情感维度值建立起来的情感维度词典。这里涉 exciting是同义词关系;而在另一个短语“young and 及3个维度,6个维度值,情感维度值可以是“合意 old”中,young和old有着强烈的反义词关系而不是 的”“不合意的”“值得称赞的”“应受责备的”“可 同义词关系。由此可见,尽管模板comj_and可以提 能的”和“确定的”,分别简写为“D”“U”“P”“B” 示词之间存在语义关系,但是这种语义关系到底是 “L”“C”。其中L、C情感维度词典的构建仅仅依赖 致还是恰好相反需要借助词典来进一步判断。 WordNet中词之间的语义关系,并且Likelihood维度 因此,基于词典的方法不但用来寻找候选的情感维 的默认值为C。 度词,而且用来判断候选情感维度词的情感维度值 循环初始时挑选的高质量情感维度种子词为 的合理性。 1)和2)提供一个良好的基础。1)和2)的目的是分 在第一轮循环开始,对于每种情感维度值挑选 别基于词典和基于依存关系获得候选的情感维度 少量高质量的种子词,作为初始的情感维度词典输 词。3)通过计算一个评分函数保证进入情感维度 入。情感维度词典包括DIC。(合意的)、DIC,(不 词典的词的质量。最后,在情感维度词典中的词基 合意的)、DIC。(值得称赞的)、DIC:(应受责备 于WordNet中的同义、反义、还原和派生关系进行扩 的)。挑选情感维度种子词有多种策略,可以通过 充。比如,如果“harm”是在情感维度词典中维度值 手工查看数据集凭经验进行挑选或者通过计算词 为“blameworthy”的词,扩充它的派生词“harmful”到 出现的频率挑选出频率高并且包含情感维度值的 情感维度词典中,同时它的情感维度值也为 词作为种子词。 “blameworthy”。 2.1.1构建过程 评分函数f(v∈DICk)主要是基于共现的思 在每一轮循环中,用WordNet和手工挑选的模 想,如果待评价的情感词与某一已知情感维度值的 板不断地抽取不同维度值下的情感词。在每一轮 情感词共同出现的次数越多,则该情感词的维度值 循环后,利用一个基于共现思想的评分函数来评估 就更有可能成为该情感维度值。在每一轮循环中, 抽取的情感维度词。情感维度词典的构建过程 评分函数利用WordNet词典和句法依存关系得到候 如下。 选集,通过设定共现次数的阈值日,过滤掉低质量 1)针对情感维度词典中每个新加入的情感维 的候选情感维度词。这里v是当前待评价的候选情 度词,基于WordNet词典,找出其同义词和反义词, 感词,u是已知情感维度值为k的情感维度词典中 并将其同义词和反义词分别放入相应的情感维度 的词,k的取值可以是“D”“U”“P”“B”。DICg是 词典候选集中。 当前生成的维度值为k的情感维度词典,|DIC4|表 2)利用前面提到的4个句法依存关系从输入 示情感维度词典元素个数。DIC是当前所有情感维 的海量文本中找出与所述相应的情感维度词典中 度词典的并集,其元素个数为|DIC。函数c(v,u) 已有的情感维度词具有依存关系的新情感维度词: 表示词v和词u在同一语句中共现的次数。评分函 放入相应的情感维度词典候选集中。 数中词,是否属于某类情感维度词典的计算既考虑 3)利用(1)式所示的评分函数对相应的情感维 了)与该类情感维度词共现的次数(作为后验),也
可以提示词之间潜在的关系。 为自动构建情感维度词典,首先手工挑选少量 高质量的情感维度值种子词(不超过 10 个)和 4 个 依存关系模板。 其中,关于每个情感维度值的种子 词包含词的原型和词性信息。 加入词性信息是因 为相同的词在词性不同的时候含义大不相同,例 如: sentence 做 动 词 时, 意 思 为 “ 判 刑”, 维 度 是 Blameworthy;但是做名词时,意思为“句子”,可以认 为不是情感词。 4 个依存关系包括 conj_and、conj_ or、prep_in 和 parataxis。 其含义分别是词之间的并 列 and 关系、词之间的并列 or 关系、词之间的介词 in 关系和 2 个词在分句中所处的并列关系。 然而, 仅仅依靠依存关系可能会有一些问题。 比如,简单 的并列关系“wonderful and exciting”中 wonderful 和 exciting 是同义词关系;而在另一个短语“ young and old”中,young 和 old 有着强烈的反义词关系而不是 同义词关系。 由此可见,尽管模板 conj_and 可以提 示词之间存在语义关系,但是这种语义关系到底是 一致还是恰好相反需要借助词典来进一步判断。 因此,基于词典的方法不但用来寻找候选的情感维 度词,而且用来判断候选情感维度词的情感维度值 的合理性。 在第一轮循环开始,对于每种情感维度值挑选 少量高质量的种子词,作为初始的情感维度词典输 入。 情感维度词典包括 DICD (合意的)、 DICU (不 合意的)、 DICP ( 值得称赞的)、 DICB ( 应受责备 的)。 挑选情感维度种子词有多种策略,可以通过 手工查看数据集凭经验进行挑选或者通过计算词 出现的频率挑选出频率高并且包含情感维度值的 词作为种子词。 2.1.1 构建过程 在每一轮循环中,用 WordNet 和手工挑选的模 板不断地抽取不同维度值下的情感词。 在每一轮 循环后,利用一个基于共现思想的评分函数来评估 抽取的情感维度词。 情感维度词典的构建过程 如下。 1)针对情感维度词典中每个新加入的情感维 度词,基于 WordNet 词典,找出其同义词和反义词, 并将其同义词和反义词分别放入相应的情感维度 词典候选集中。 2)利用前面提到的 4 个句法依存关系从输入 的海量文本中找出与所述相应的情感维度词典中 已有的情感维度词具有依存关系的新情感维度词, 放入相应的情感维度词典候选集中。 3)利用(1)式所示的评分函数对相应的情感维 度词典候选集进行评价与过滤,选取其中评分大于 阈值的候选集中的情感词,放入相应的情感维度词 典中: f(v ∈ DICk) = ∑u∈DICk c(v,u) ∑u c(v,u) + DICk ∑u∉DIC c(v,u) DIC ∑u c(v,u) (1) 4)不断重复步骤 2) ~3),直到不再有新的情感 维度词加入; 5) 利用 WordNet 中的派生以及还原关系扩充 情感维度词典。 构建情感维度词典过程中的输入是海量的文 本和关于某个情感维度值的种子词,输出是针对这 个情感维度值建立起来的情感维度词典。 这里涉 及 3 个维度,6 个维度值,情感维度值可以是“合意 的” “不合意的” “值得称赞的” “应受责备的” “可 能的”和“确定的”,分别简写为“D” “U” “P” “B” “L” “C”。 其中 L、C 情感维度词典的构建仅仅依赖 WordNet 中词之间的语义关系,并且 Likelihood 维度 的默认值为 C。 循环初始时挑选的高质量情感维度种子词为 1)和 2)提供一个良好的基础。 1)和 2)的目的是分 别基于词典和基于依存关系获得候选的情感维度 词。 3)通过计算一个评分函数保证进入情感维度 词典的词的质量。 最后,在情感维度词典中的词基 于 WordNet 中的同义、反义、还原和派生关系进行扩 充。 比如,如果“harm”是在情感维度词典中维度值 为“blameworthy”的词,扩充它的派生词“harmful”到 情感 维 度 词 典 中, 同 时 它 的 情 感 维 度 值 也 为 “blameworthy”。 评分函数 f(v ∈ DICk) 主要是基于共现的思 想,如果待评价的情感词与某一已知情感维度值的 情感词共同出现的次数越多,则该情感词的维度值 就更有可能成为该情感维度值。 在每一轮循环中, 评分函数利用 WordNet 词典和句法依存关系得到候 选集,通过设定共现次数的阈值 θ1 ,过滤掉低质量 的候选情感维度词。 这里 v 是当前待评价的候选情 感词, u 是已知情感维度值为 k 的情感维度词典中 的词, k 的取值可以是“D” “U” “P” “B”。 DICk 是 当前生成的维度值为 k 的情感维度词典, DICk 表 示情感维度词典元素个数。 DIC 是当前所有情感维 度词典的并集,其元素个数为 DIC 。 函数 c(v,u) 表示词 v 和词 u 在同一语句中共现的次数。 评分函 数中词 v 是否属于某类情感维度词典的计算既考虑 了 v 与该类情感维度词共现的次数(作为后验),也 ·648· 智 能 系 统 学 报 第 12 卷
第5期 皇甫璐雯,等:一种基于OCC模型的文本情感挖掘方法 .649. 考虑到该类情感维度词典在当前所有情感维度词 score=a·scorepolariyl+(1-a)·scorep2(3) 典中所占的词的比例(作为先验)。 (0≤a≤1) 2.1.2求精过程 式中score1和Score2虽然基于相同的(2) 构建完成后的情感维度词典往往存在不一致 式,但是分别利用了上面提到的不同的极性词典计 性或者噪声,包括语义不一致性、情感倾向不一致 算而得的。通过设定score的阈值,以避免加入质量 性,以及非情感词等。因此利用情感维度词的同义 过低的词。 词集合和反义词集合检查情感维度词的正负倾向, 2.2情感类型的生成 从而过滤掉质量低的情感维度词,完成情感维度词 完成构建和求精情感维度词典后,便可以利用 典的求精过程 OCC情感模型生成情感类型。情感类型的生成基 语义不一致性是指同一个词在同一情感维度 于情感认知结构模型,根据该模型中每种情感类型 上具有相互矛盾的取值,比如在“褒贬性”维度上同 与情感维度及其取值的对应关系,自动生成6种主 时具有“P”和“B”这两个维度值或者在“合意性”维 要的情感类型。具体地说,“合意性”维度值为“合 度上同时具有“D”和“U”这两个维度值:情感倾向 意的”并且“可能性”维度值为“确定的”时对应的情 不一致性是指一个词同时具有正负情感倾向相互 感类型为“高兴”;“合意性”维度值为“不合意的” 冲突的情感维度值。情感词的极性可以是正向或 且“可能性”维度值为“确定的”对应的情感类型为 负向。根据含义可知,“P”和“D”表示对情感对象 “悲伤”:“合意性”维度值为“合意的”且“可能性” 的正面态度或评价,故极性为正;“B”和“U”表示对 维度值为“可能的”对应的情感类型为“希望”:“合 情感对象的负面态度或评价,故极性为负。若检测 意性”维度值为“不合意的”且“可能性”维度值为 到语义或情感倾向不一致的词,对该情感词的求精 “可能的”对应的情感类型为“恐惧”:“合意性”维 方法根据通用语义词典中的同义和反义关系共同 度值为“合意的”,“褒贬性”维度值为“值得称赞 确定其情感倾向。当前待求精的情感维度词的计 的”且“可能性”维度值为“确定的”对应的情感类型 算公式如式(2): 为“骄傲”:“合意性”维度值为“不合意的”,“褒贬 score =st-nso nAm-nAnt- 性”维度值为“应受责备的”且“可能性”维度值为 (2) 2·nsym 2·nAm “确定的”对应的情感类型为“羞耻”。工作实现的 式中:ns、nu分别是当前待求精的情感词的同义 6种情感类型生成规则如下。 词和反义词的总数,n+、nsm-分别是该词的极性 规则1如果“合意性”维度值=“合意的”并且 为正和为负的同义词个数,nsnn-分别是该词 “可能性”维度值=“确定的”对应的情感类型=“高 的极性为正和为负的反义词个数。同时,为了保证 兴”。 同义词和反义词集合的均衡性,将其归一化后相 规则2如果“合意性”维度值=“不合意的” 加。如果计算得到的score值小于某一阈值02,则 并且“可能性”维度值=“确定的”对应的情感类型= 过滤掉该情感词。由于以往相关工作中已建立了 “悲伤”。 多个关于情感词的正负极性词典,这里nsyn Ant的 规则3如果“合意性”维度值=“不合意”并且 正负极性可通过参照这些情感极性词典来确定。 “可能性”维度值=“可能的”对应的情感类型=“希 非情感词包括无实际意义的词,如具体数字、 望”。 代词等,也包括中性的名词和动词。过滤的方法包 规则4如果“合意性”维度值=“不合意的” 括直接列出这些明显的不应该加入的词加以过滤, 并且“可能性”维度值=“可能的”对应的情感类型= 或者计算情感倾向,将某一阈值范围内的词别除。 “恐惧”。 除了以本身建造的情感维度词典作为极性词 规则5如果“合意性”维度值=“合意的”并且 典,还采用一个公开的极性词表。选择这两个极 “褒贬性”维度值=“值得称赞的”对应的情感类 性词典的原因是它们的优势可以互补。构建的情 型=“骄傲”。 感维度词典能够覆盖到较大集合的情感维度词,词 规则6如果“合意性”维度值=“不合意的”并 性词表尽管质量高,但是包含词的数量非常有限, 且“褒贬性”维度值=“应受责备的”对应的情感类 并且只有词的极性信息。所以,两者结合后彼此扬 型=“羞耻”。 长避短。同时可以通过(3)式进一步提高词的 根据前述的情感类型的生成过程,下面给出一 质量。 个具体示例
考虑到该类情感维度词典在当前所有情感维度词 典中所占的词的比例(作为先验)。 2.1.2 求精过程 构建完成后的情感维度词典往往存在不一致 性或者噪声,包括语义不一致性、情感倾向不一致 性,以及非情感词等。 因此利用情感维度词的同义 词集合和反义词集合检查情感维度词的正负倾向, 从而过滤掉质量低的情感维度词,完成情感维度词 典的求精过程。 语义不一致性是指同一个词在同一情感维度 上具有相互矛盾的取值,比如在“褒贬性”维度上同 时具有“P”和“B”这两个维度值或者在“合意性”维 度上同时具有“D”和“U”这两个维度值;情感倾向 不一致性是指一个词同时具有正负情感倾向相互 冲突的情感维度值。 情感词的极性可以是正向或 负向。 根据含义可知,“P”和“D”表示对情感对象 的正面态度或评价,故极性为正;“B”和“U”表示对 情感对象的负面态度或评价,故极性为负。 若检测 到语义或情感倾向不一致的词,对该情感词的求精 方法根据通用语义词典中的同义和反义关系共同 确定其情感倾向。 当前待求精的情感维度词的计 算公式如式(2): score = nSyn+ - nSyn- 2·nSyn - nAnt+ - nAnt- 2·nAnt (2) 式中: nSyn 、 nAnt 分别是当前待求精的情感词的同义 词和反义词的总数, nSyn+ 、 nSyn- 分别是该词的极性 为正和为负的同义词个数, nSyn- 、nAnt- 分别是该词 的极性为正和为负的反义词个数。 同时,为了保证 同义词和反义词集合的均衡性,将其归一化后相 加。 如果计算得到的 score 值小于某一阈值 θ2 , 则 过滤掉该情感词。 由于以往相关工作中已建立了 多个关于情感词的正负极性词典,这里 nSyn 、nAnt 的 正负极性可通过参照这些情感极性词典来确定。 非情感词包括无实际意义的词,如具体数字、 代词等,也包括中性的名词和动词。 过滤的方法包 括直接列出这些明显的不应该加入的词加以过滤, 或者计算情感倾向,将某一阈值范围内的词剔除。 除了以本身建造的情感维度词典作为极性词 典,还采用一个公开的极性词表[9] 。 选择这两个极 性词典的原因是它们的优势可以互补。 构建的情 感维度词典能够覆盖到较大集合的情感维度词,词 性词表尽管质量高,但是包含词的数量非常有限, 并且只有词的极性信息。 所以,两者结合后彼此扬 长避短。 同时可以通过 ( 3) 式进一步提高词的 质量。 score = α·scorepolarity1 + (1 - α)·scorepolarity2 (3) (0 ≤ α ≤ 1) 式中 scorepolarity1 和 scorepolarity 2 虽然基于相同的( 2) 式,但是分别利用了上面提到的不同的极性词典计 算而得的。 通过设定 score 的阈值,以避免加入质量 过低的词。 2.2 情感类型的生成 完成构建和求精情感维度词典后,便可以利用 OCC 情感模型生成情感类型。 情感类型的生成基 于情感认知结构模型,根据该模型中每种情感类型 与情感维度及其取值的对应关系,自动生成 6 种主 要的情感类型。 具体地说,“合意性” 维度值为“合 意的”并且“可能性”维度值为“确定的”时对应的情 感类型为“高兴”;“合意性” 维度值为“不合意的” 且“可能性”维度值为“确定的”对应的情感类型为 “悲伤”;“合意性”维度值为“合意的”且“可能性” 维度值为“可能的”对应的情感类型为“希望”;“合 意性”维度值为“不合意的” 且“可能性” 维度值为 “可能的”对应的情感类型为“恐惧”;“合意性” 维 度值为“合意的”,“褒贬性” 维度值为 “值得称赞 的”且“可能性”维度值为“确定的”对应的情感类型 为“骄傲”;“合意性”维度值为“不合意的”, “褒贬 性”维度值为“应受责备的” 且“可能性”维度值为 “确定的”对应的情感类型为“羞耻”。 工作实现的 6 种情感类型生成规则如下。 规则 1 如果“合意性”维度值= “合意的”并且 “可能性”维度值 = “确定的”对应的情感类型 = “高 兴”。 规则 2 如果“合意性” 维度值 = “不合意的” 并且“可能性”维度值= “确定的”对应的情感类型= “悲伤”。 规则 3 如果“合意性”维度值= “不合意”并且 “可能性”维度值= “可能的” 对应的情感类型= “希 望”。 规则 4 如果 “合意性”维度值 = “不合意的” 并且“可能性”维度值= “可能的”对应的情感类型= “恐惧”。 规则 5 如果“合意性”维度值= “合意的”并且 “褒贬性” 维度值 = “值得称赞的” 对应的情感类 型= “骄傲”。 规则 6 如果“合意性”维度值= “不合意的”并 且“褒贬性”维度值 = “应受责备的” 对应的情感类 型= “羞耻”。 根据前述的情感类型的生成过程,下面给出一 个具体示例。 第 5 期 皇甫璐雯,等:一种基于 OCC 模型的文本情感挖掘方法 ·649·