当前位置：和泉文库 > 电气与自动化 > 浏览文档

智能系统：一种基于OCC模型的文本情感挖掘方法

文件格式：PDF，文件大小：1.02MB，售价：3.12元

文档详细内容（约8页）

第12卷第5期智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201312032 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20171021.1342.002.html 一种基于OCC模型的文本情感挖掘方法皇甫璐雯，毛文吉 (中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京100190) 摘要：观点挖掘（或情感分析）作为面向网络社会媒体分析挖掘领域的一个核心研究课题，具有重要的研究意义和应用价值。针对传统观点挖掘方法存在的不足和局限性，本文设计并实现了一种基于OCC情感模型的观点挖掘方法。该方法首先采用统计方法，利用WordNet词典、句法依存关系及少量标注数据，自动构建情感维度词典：其次，对所构建的情感维度词典进行求精，通过语义、情感倾向的不一致性处理和非情感词的过滤，得到高质量的情感维度词典：最后，基于所得到的情感维度词典，结合0CC模型中情感维度值与情感类型的对应关系，生成6种主要的情感类型。实验方法表明，此方法在使用灵活性、可解释性和有效性上具有明显的优势。关键词：观点挖掘；0CC情感模型：情感维度：情感类型：情感词典；认知心理学；情感挖掘；共现中图分类号：TP391文献标志码：A文章编号：1673-4785(2017)05-0645-08 中文引用格式：皇甫璐雯，毛文吉.一种基于0CC模型的文本情感挖掘方法[J].智能系统学报，2017,12(5)：645-652 英文引用格式：HUANGFU Luwen,MAO Wenji.OCC-model-based text-emotion mining method[J].CAAI transactions on intelligent systems,2017,12(5):645-652. OCC-model-based text-emotion mining method HUANGFU Luwen,MAO Wenji (State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Science,Beijing 100190,China) Abstract:Opinion mining,also called sentiment analysis,as one of the core research areas in the network-oriented social media analysis and mining domain,has important practical and research significance.Due to the weaknesses and limitations of traditional opinion mining methods,in this study,we designe and implemente an OCC emotion model-based opinion mining method for extracting emotion types from text.First,we adopte a statistical method to construct an emotion dictionary,based on candidate sets collected by the WordNet dictionary,as well as several syntactic dependent relationships and a small amount of annotated data.Next,we refine the constructed emotion- dimension dictionary to improve its quality by filtering out non-emotional words as well as emotional words that have conflicting syntactic or orientation.Lastly,we generate six main emotion types based on the obtained emotion- dimension dictionary combined with the corresponding relations between emotional dimensions and the different emotion types identified by the OCC model.Experimental results show that the proposed method has obvious advantages with respect to flexibility of usage,interpretability,and effectiveness. Keywords:opinion mining;OCC emotion model;emotional dimension;emotion types;emotion dictionary; cognitive psychology;emotion mining;co-occurrence 近年来，社会媒体迅猛发展并快速渗透到了社值的信息，而且其数量随时间累积呈指数级增长。会、经济、政治、文化等各方面，互联网用户产生的这些信息主要是用户的主观性观点，与客观的事实内容中包含大量关于用户意见、态度、情绪等有价有很大的不同。这些包含用户观点的海量数据蕴含着巨大的实际应用价值，亟需自动化的计算分析收稿日期：2013-12-17.网络出版日期：2017-10-21. 与处理技术，这种现象促进了观点挖掘与情感分析基金项目：国家自然科学基金项目(61175040,71025001). 通信作者：毛文吉.E-mail:wenji.mao@ia.ac.cn 这一新兴研究领域的蓬勃发展。目前，观点挖掘

第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０１７年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１３１２０３２网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７１０２１．１３４２．００２．ｈｔｍｌ一种基于ＯＣＣ模型的文本情感挖掘方法皇甫璐雯，毛文吉（中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京１００１９０）摘要：观点挖掘（或情感分析）作为面向网络社会媒体分析挖掘领域的一个核心研究课题，具有重要的研究意义和应用价值。针对传统观点挖掘方法存在的不足和局限性，本文设计并实现了一种基于ＯＣＣ情感模型的观点挖掘方法。该方法首先采用统计方法，利用ＷｏｒｄＮｅｔ词典、句法依存关系及少量标注数据，自动构建情感维度词典；其次，对所构建的情感维度词典进行求精，通过语义、情感倾向的不一致性处理和非情感词的过滤，得到高质量的情感维度词典；最后，基于所得到的情感维度词典，结合ＯＣＣ模型中情感维度值与情感类型的对应关系，生成６种主要的情感类型。实验方法表明，此方法在使用灵活性、可解释性和有效性上具有明显的优势。关键词：观点挖掘；ＯＣＣ情感模型；情感维度；情感类型；情感词典；认知心理学；情感挖掘；共现中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０５－０６４５－０８中文引用格式：皇甫璐雯，毛文吉．一种基于ＯＣＣ模型的文本情感挖掘方法［Ｊ］．智能系统学报，２０１７，１２（５）：６４５－６５２．英文引用格式：ＨＵＡＮＧＦＵＬｕｗｅｎ，ＭＡＯＷｅｎｊｉ．ＯＣＣ⁃ｍｏｄｅｌ⁃ｂａｓｅｄｔｅｘｔ⁃ｅｍｏｔｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（５）：６４５－６５２．ＯＣＣ⁃ｍｏｄｅｌ⁃ｂａｓｅｄｔｅｘｔ⁃ｅｍｏｔｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄＨＵＡＮＧＦＵＬｕｗｅｎ，ＭＡＯＷｅｎｊｉ（ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＭａｎａｇｅｍｅｎｔａｎｄＣｏｎｔｒｏｌｆｏｒＣｏｍｐｌｅｘＳｙｓｔｅｍｓ，ＩｎｓｔｉｔｕｔｅｏｆＡｕｔｏｍａｔｉｏｎ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｏｐｉｎｉｏｎｍｉｎｉｎｇ，ａｌｓｏｃａｌｌｅｄｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ，ａｓｏｎｅｏｆｔｈｅｃｏｒｅｒｅｓｅａｒｃｈａｒｅａｓｉｎｔｈｅｎｅｔｗｏｒｋ⁃ｏｒｉｅｎｔｅｄｓｏｃｉａｌｍｅｄｉａａｎａｌｙｓｉｓａｎｄｍｉｎｉｎｇｄｏｍａｉｎ，ｈａｓｉｍｐｏｒｔａｎｔｐｒａｃｔｉｃａｌａｎｄｒｅｓｅａｒｃｈｓｉｇｎｉｆｉｃａｎｃｅ．Ｄｕｅｔｏｔｈｅｗｅａｋｎｅｓｓｅｓａｎｄｌｉｍｉｔａｔｉｏｎｓｏｆｔｒａｄｉｔｉｏｎａｌｏｐｉｎｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄｓ，ｉｎｔｈｉｓｓｔｕｄｙ，ｗｅｄｅｓｉｇｎｅａｎｄｉｍｐｌｅｍｅｎｔｅａｎＯＣＣｅｍｏｔｉｏｎｍｏｄｅｌ⁃ｂａｓｅｄｏｐｉｎｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄｆｏｒｅｘｔｒａｃｔｉｎｇｅｍｏｔｉｏｎｔｙｐｅｓｆｒｏｍｔｅｘｔ．Ｆｉｒｓｔ，ｗｅａｄｏｐｔｅａｓｔａｔｉｓｔｉｃａｌｍｅｔｈｏｄｔｏｃｏｎｓｔｒｕｃｔａｎｅｍｏｔｉｏｎｄｉｃｔｉｏｎａｒｙ，ｂａｓｅｄｏｎｃａｎｄｉｄａｔｅｓｅｔｓｃｏｌｌｅｃｔｅｄｂｙｔｈｅＷｏｒｄＮｅｔｄｉｃｔｉｏｎａｒｙ，ａｓｗｅｌｌａｓｓｅｖｅｒａｌｓｙｎｔａｃｔｉｃｄｅｐｅｎｄｅｎｔｒｅｌａｔｉｏｎｓｈｉｐｓａｎｄａｓｍａｌｌａｍｏｕｎｔｏｆａｎｎｏｔａｔｅｄｄａｔａ．Ｎｅｘｔ，ｗｅｒｅｆｉｎｅｔｈｅｃｏｎｓｔｒｕｃｔｅｄｅｍｏｔｉｏｎ⁃ ｄｉｍｅｎｓｉｏｎｄｉｃｔｉｏｎａｒｙｔｏｉｍｐｒｏｖｅｉｔｓｑｕａｌｉｔｙｂｙｆｉｌｔｅｒｉｎｇｏｕｔｎｏｎ⁃ｅｍｏｔｉｏｎａｌｗｏｒｄｓａｓｗｅｌｌａｓｅｍｏｔｉｏｎａｌｗｏｒｄｓｔｈａｔｈａｖｅｃｏｎｆｌｉｃｔｉｎｇｓｙｎｔａｃｔｉｃｏｒｏｒｉｅｎｔａｔｉｏｎ．Ｌａｓｔｌｙ，ｗｅｇｅｎｅｒａｔｅｓｉｘｍａｉｎｅｍｏｔｉｏｎｔｙｐｅｓｂａｓｅｄｏｎｔｈｅｏｂｔａｉｎｅｄｅｍｏｔｉｏｎ－ｄｉｍｅｎｓｉｏｎｄｉｃｔｉｏｎａｒｙｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｒｅｌａｔｉｏｎｓｂｅｔｗｅｅｎｅｍｏｔｉｏｎａｌｄｉｍｅｎｓｉｏｎｓａｎｄｔｈｅｄｉｆｆｅｒｅｎｔｅｍｏｔｉｏｎｔｙｐｅｓｉｄｅｎｔｉｆｉｅｄｂｙｔｈｅＯＣＣｍｏｄｅｌ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｈａｓｏｂｖｉｏｕｓａｄｖａｎｔａｇｅｓｗｉｔｈｒｅｓｐｅｃｔｔｏｆｌｅｘｉｂｉｌｉｔｙｏｆｕｓａｇｅ，ｉｎｔｅｒｐｒｅｔａｂｉｌｉｔｙ，ａｎｄｅｆｆｅｃｔｉｖｅｎｅｓｓ．Ｋｅｙｗｏｒｄｓ：ｏｐｉｎｉｏｎｍｉｎｉｎｇ；ＯＣＣｅｍｏｔｉｏｎｍｏｄｅｌ；ｅｍｏｔｉｏｎａｌｄｉｍｅｎｓｉｏｎ；ｅｍｏｔｉｏｎｔｙｐｅｓ；ｅｍｏｔｉｏｎｄｉｃｔｉｏｎａｒｙ；ｃｏｇｎｉｔｉｖｅｐｓｙｃｈｏｌｏｇｙ；ｅｍｏｔｉｏｎｍｉｎｉｎｇ；ｃｏ⁃ｏｃｃｕｒｒｅｎｃｅ收稿日期：２０１３－１２－１７．网络出版日期：２０１７－１０－２１．基金项目：国家自然科学基金项目（６１１７５０４０，７１０２５００１）．通信作者：毛文吉．Ｅ⁃ｍａｉｌ：ｗｅｎｊｉ．ｍａｏ＠ｉａ．ａｃ．ｃｎ．近年来，社会媒体迅猛发展并快速渗透到了社会、经济、政治、文化等各方面，互联网用户产生的内容中包含大量关于用户意见、态度、情绪等有价值的信息，而且其数量随时间累积呈指数级增长。这些信息主要是用户的主观性观点，与客观的事实有很大的不同。这些包含用户观点的海量数据蕴含着巨大的实际应用价值，亟需自动化的计算分析与处理技术，这种现象促进了观点挖掘与情感分析这一新兴研究领域的蓬勃发展。目前，观点挖掘

·646 智能系统学报第12卷 (或情感分析)【]已成为社会媒体分析挖掘领域的 OCC情感模型的观点挖掘方法。一个核心研究课题，其研究成果已应用于用户观点 1 情感的认知结构模型OCC 发现、产品评论分析及社会舆情监控等领域，并在推动社会和谐发展、改善人们生活方面发挥重要认知评估理论[02]是认知心理学研究中最为作用)。成熟和影响最广的情感理论。认知评估理论认为互联网中的文本数据大致可以分为两类：一类评估过程是个体评价其与所处环境间的关系，包括用来陈述客观性的事实，另一类用来表达主观性的目前的条件、导致当前状态的事件和对未来的预观，点。相对于客观性的事实数据，主观性的观点数期。评估理论认为评估本身尽管不是一个慎思的据由于其内在的复杂性，在研究方法和技术上与前过程，但其确实由认知的过程提供信息，尤其是那者区别较大。目前观点挖掘分为两类工作：识别观些参与理解和与环境交互的过程。评估将这些异点的正负极性和文本中的情感类型。文本中的情类过程的特征映射到一个共同的中介术语集（即维感类型比正负极性包含更为丰富的信息，因而挖掘度变量)。这些维度变量作为个体与环境之间关系文本中的情感类型更具有挑战性，但往往需要大量的中介描述，在刺激源和反应之间进行协调。维度的手工标注数据，并且所获得的情感类型常常缺乏变量刻画了对个体而言事件的重要特征。可解释性。认知评估理论中的不同情感模型采用了不同挖掘观点正负极性的方法主要有文档级观点的情感维度变量，但它们所使用的情感维度变量间挖掘)、语句级观点挖掘s-】、基于情感对象特征有很大的相似性，其中文献[23]工作中的分类最的观点挖掘o等。Turney!提出了一种利用非监全，包括相关性(relevance)、合意性(desirability)、行督学习方法计算词之间的互信息(PM)来判断整个动性(actionability)、责备/褒奖(praise/blame- 文档的正负极性。Pang等[)提出采用多种机器学 worthiness)、可能性(likelihood)、意外性习方法分类每篇电影评论的正负极性。Wiebe等[] (unexpectedness)、自我投入(ego-involvement)、可通过大量数据集学习线索和特征，区分主观观点和控性(controllability)、权力(power)、适应性客观事实，并在语句级判断观点的正负极性。Zhang (adaptability)。等)提出利用词之间的依赖关系分析中文语句的不同的情感维度变量及其取值产生不同的情正负倾向性。H山等[)利用频繁挖掘算法获得情感感类型。比如，在一个具体的经济环境下，“赔钱” 对象特征，再利用语义词典确定情感词的正负极是个不合人意的事件，并导致负性情感评估。在此性，从而输出针对每个情感对象特征的相关正负情形下，其他变量的不同取值可引发不同的情感评评论。估。诸如，如果可能性是不确定的，引发“恐惧” 挖掘文本中情感类型的方法主要包括基于统 (fear)情感，否则引发“悲伤”(distress)情感。自我计的方法[)、机器学习方法[13-6]、基于情感结构/ 的行动带来应受到责备的行为后果引发“羞耻” 模型的方法[16-]等。基于机器学习的情感类型挖 (shame),如果事件是不合己意的，则带来“悔恨” 掘工作主要采用分类学习算法[13-14,6,18- (remorse)。如果不合己意的事件带来的后果是他 Mostafa[7J提出了一种基于情感模型的方法，该方法人应受到责备的行为引发的，则导致“生气” 利用大量的手工标注数据，并基于主要的情感变量 (anger)情感。计算语句中几乎所有词的情感变量值，进而计算得 OCC情感模型[2]是认知心理学中经典的情感到整个语句的情感类型。但是，这种方法不但需要认知结构模型，也是在计算领域近年来采用最多的大量人力，费时费力，而且不加区分地计算句子中心理学情感模型，在情感的计算建模中有着非常广出现的词，导致该方法的效率和性能较低。泛的应用。综上，观点倾向性的传统挖掘方法主要关注观 OCC情感模型的整个层次结构主要包括3个点的正负极性而忽略了其丰富的情感类型：已有的部分：与事件结果相关的情感，与智能体行为相关情感类型挖掘尽管能够输出丰富的情感类型，但是的情感和与对象属性相关的情感。这3个部分也可需要大量的标注数据支持。此外，以往工作几乎都以结合起来组合成更为复杂的情感类型。该模型未考虑情感认知理论模型在观点挖掘和情感分析共描述了22种不同情感类型的认知结构。OCC模中的重要作用。因此，为了更好地实现从网上文本型中每个情感类型的出现都由一定的条件触发，这数据中挖掘出丰富的情感类型，文中提出一种基于些条件通过不同的情感维度值表达。其中，“合意

（或情感分析）［１－２］已成为社会媒体分析挖掘领域的一个核心研究课题，其研究成果已应用于用户观点发现、产品评论分析及社会舆情监控等领域，并在推动社会和谐发展、改善人们生活方面发挥重要作用［３］。互联网中的文本数据大致可以分为两类：一类用来陈述客观性的事实，另一类用来表达主观性的观点。相对于客观性的事实数据，主观性的观点数据由于其内在的复杂性，在研究方法和技术上与前者区别较大。目前观点挖掘分为两类工作：识别观点的正负极性和文本中的情感类型。文本中的情感类型比正负极性包含更为丰富的信息，因而挖掘文本中的情感类型更具有挑战性，但往往需要大量的手工标注数据，并且所获得的情感类型常常缺乏可解释性。挖掘观点正负极性的方法主要有文档级观点挖掘［３－４］、语句级观点挖掘［５－８］、基于情感对象特征的观点挖掘［９－１０］等。Ｔｕｒｎｅｙ［４］提出了一种利用非监督学习方法计算词之间的互信息（ＰＭＩ）来判断整个文档的正负极性。Ｐａｎｇ等［３］提出采用多种机器学习方法分类每篇电影评论的正负极性。Ｗｉｅｂｅ等［８］通过大量数据集学习线索和特征，区分主观观点和客观事实，并在语句级判断观点的正负极性。Ｚｈａｎｇ等［１１］提出利用词之间的依赖关系分析中文语句的正负倾向性。Ｈｕ等［９］利用频繁挖掘算法获得情感对象特征，再利用语义词典确定情感词的正负极性，从而输出针对每个情感对象特征的相关正负评论。挖掘文本中情感类型的方法主要包括基于统计的方法［１２］、机器学习方法［１３－１６］、基于情感结构／模型的方法［１６－１７］等。基于机器学习的情感类型挖掘工作主要采用分类学习算法［１３－１４，１６，１８－１９］。Ｍｏｓｔａｆａ［１７］提出了一种基于情感模型的方法，该方法利用大量的手工标注数据，并基于主要的情感变量计算语句中几乎所有词的情感变量值，进而计算得到整个语句的情感类型。但是，这种方法不但需要大量人力，费时费力，而且不加区分地计算句子中出现的词，导致该方法的效率和性能较低。综上，观点倾向性的传统挖掘方法主要关注观点的正负极性而忽略了其丰富的情感类型；已有的情感类型挖掘尽管能够输出丰富的情感类型，但是需要大量的标注数据支持。此外，以往工作几乎都未考虑情感认知理论模型在观点挖掘和情感分析中的重要作用。因此，为了更好地实现从网上文本数据中挖掘出丰富的情感类型，文中提出一种基于ＯＣＣ情感模型的观点挖掘方法。１情感的认知结构模型ＯＣＣ认知评估理论［２０－２３］是认知心理学研究中最为成熟和影响最广的情感理论。认知评估理论认为评估过程是个体评价其与所处环境间的关系，包括目前的条件、导致当前状态的事件和对未来的预期。评估理论认为评估本身尽管不是一个慎思的过程，但其确实由认知的过程提供信息，尤其是那些参与理解和与环境交互的过程。评估将这些异类过程的特征映射到一个共同的中介术语集（即维度变量）。这些维度变量作为个体与环境之间关系的中介描述，在刺激源和反应之间进行协调。维度变量刻画了对个体而言事件的重要特征。认知评估理论中的不同情感模型采用了不同的情感维度变量，但它们所使用的情感维度变量间有很大的相似性，其中文献［２３］工作中的分类最全，包括相关性（ｒｅｌｅｖａｎｃｅ）、合意性（ｄｅｓｉｒａｂｉｌｉｔｙ）、行动性（ａｃｔｉｏｎａｂｉｌｉｔｙ）、责备／褒奖（ｐｒａｉｓｅ／ｂｌａｍｅ⁃ ｗｏｒｔｈｉｎｅｓｓ）、可能性（ｌｉｋｅｌｉｈｏｏｄ）、意外性（ｕｎｅｘｐｅｃｔｅｄｎｅｓｓ）、自我投入（ｅｇｏ－ｉｎｖｏｌｖｅｍｅｎｔ）、可控性（ｃｏｎｔｒｏｌｌａｂｉｌｉｔｙ）、权力（ｐｏｗｅｒ）、适应性（ａｄａｐｔａｂｉｌｉｔｙ）。不同的情感维度变量及其取值产生不同的情感类型。比如，在一个具体的经济环境下，“赔钱” 是个不合人意的事件，并导致负性情感评估。在此情形下，其他变量的不同取值可引发不同的情感评估。诸如，如果可能性是不确定的，引发 “ 恐惧” （ｆｅａｒ）情感，否则引发“悲伤” （ｄｉｓｔｒｅｓｓ）情感。自我的行动带来应受到责备的行为后果引发“ 羞耻” （ｓｈａｍｅ），如果事件是不合己意的，则带来“悔恨” （ｒｅｍｏｒｓｅ）。如果不合己意的事件带来的后果是他人应受到责备的行为引发的，则导致 “ 生气” （ａｎｇｅｒ）情感。ＯＣＣ情感模型［２１］是认知心理学中经典的情感认知结构模型，也是在计算领域近年来采用最多的心理学情感模型，在情感的计算建模中有着非常广泛的应用。ＯＣＣ情感模型的整个层次结构主要包括３个部分：与事件结果相关的情感，与智能体行为相关的情感和与对象属性相关的情感。这３个部分也可以结合起来组合成更为复杂的情感类型。该模型共描述了２２种不同情感类型的认知结构。ＯＣＣ模型中每个情感类型的出现都由一定的条件触发，这些条件通过不同的情感维度值表达。其中，“合意 ·６４６· 智能系统学报第１２卷

第5期皇甫璐雯，等：一种基于OCC模型的文本情感挖掘方法 .647. 性(desirability)”“褒贬性（praise-/blame- 的情感类型挖掘问题可以分解成两个子问题：1)自 worthiness)”和“可能性(likelihood)”是该模型中3 动构建高质量的情感维度词典，即建立包括具体的个最为重要的情感维度变量。“合意性”与主体的词和抽象的情感维度值之间的映射关系：2)基于目标相关联，“褒贬性”与行为是否符合社会道德标 OCC模型，以规则的形式建立情感维度值与情感类准相关联，而“可能性”则表示对事件发生的期望。型间的对应关系。构建情感维度词典则是建立文在情感认知结构理论中，每个情感维度变量有本情感类型识别系统的关键。情感维度词典涵盖不同的取值。“合意性(desirability)”维度的取值包了比通常仅包含正负极性的情感词库更丰富的信括“合意的(desirable)”和“不合意的息，所以在构建情感维度词典时，综合考虑了依存 (undesirable)”。当某些事件的发生有利于最终目句法关系、语义关系和统计信息。由于构建后的情标的实现时，这种情况对于主体而言是合意的；反感维度词典存在语义、情感倾向的不一致性等问之则是不合意的。类似地，“褒贬性(praise-./blame- 题，因此还需要对情感维度词典进一步求精，过滤 worthiness)”维度的取值有“值得称赞的掉低质量的候选词。 (praiseworthy)”和“应受责备的(blameworthy)”。图1是基于OCC情感模型的观点挖掘方法的 “可能性(likelihood)”维度有“可能的(likely)”和数据流图，主要由情感维度词典的构建、求精和情 “确定的(certain)”这两个取值。情感维度变量的感类型的生成3个模块组成。该方法基于海量开源不同取值及其组合可以生成不同的情感类型。例文本输入，以句子为单位输出情感类型及其关联的如，如果“合意的”事件的可能性是“确定的”，引发情感对象。其中，情感维度词典的构建模块利用通 “高兴(joy)”情感；否则引发“希望(hope)”。如果用语义词典和句法依存关系建立关于各情感维度个体“值得表扬的(praiseworthy)”行为带来合乎自值的词典，情感维度词典的求精模块包括语义、正己心意的行为后果，则导致“骄傲(pide)”情感的产负情感倾向的不一致性处理和非情感词的过滤。生。表1给出了3个情感维度变量与情感类型之间针对前2个模块，文中还提出了融合Bootstrapping 的对应关系。的构建与求精同步的改进算法。情感类型的生成表13个情感维度变量及其对应的情感类型模块基于前2个模块得到情感维度词典，利用经典 Table 1 Three emotional dimension variables and their 的OCC情感模型，获得情感类型。最后，得到情感 corresponding emotion types 类型与情感对象相结合的输出结果，以满足用户合意性褒贬性可能性情感类型需求。合意的确定的高兴不合意的确定的悲伤 ·情感对象识别合意的可能的希望不合意的可能的恐惧句法 WordNet OCC情感情感合意的值得称赞的确定的骄傲词典模型规则不合意的应受责备的确定的羞耻表1左边3列是情感维度取值列表，右边一列输出物建维生成情感是在特定的情感维度取值下所产生的情感类型。情感技1可具现类型情感维对象本文的研究思路基于经典的OCC情感模型，选取其高兴·悲求精世可曲型最主要的3个情感维度，以挖掘文中包含的这3类子词度词典 DUPBL 骄傲·羞维度变量的情感。词为重点，通过建立相应的情感维度词典，自图1 基于OCC模型的本文情感挖掘方法动推演出6种主要的情感类型：高兴(jy)、悲伤 Fig.1 OCC model-based emotion mining method from texts (distress)、希望(hope)、恐惧(fear)、骄傲(pride)和 2.1情感维度词典的构建与求精羞耻(shame)。情感维度词典是基于WordNet词典和句法依存关系，采用统计的方法自动构建的。WordNet词典 2基于OCC模型的情感挖掘方法可以提供词的语义解释和词之间的关系，有同义结合前面介绍的OCC情感认知结构模型，建立词、反义词、还原词、派生词等。句法依存关系是自动识别文本中情感类型的方法。基于OCC模型指，通过句法分析树中得到的词之间存在的联系

性（ｄｅｓｉｒａｂｉｌｉｔｙ）” “ 褒贬性（ｐｒａｉｓｅ⁃／ｂｌａｍｅ⁃ ｗｏｒｔｈｉｎｅｓｓ）”和“可能性（ｌｉｋｅｌｉｈｏｏｄ）” 是该模型中３个最为重要的情感维度变量。 “合意性” 与主体的目标相关联，“褒贬性”与行为是否符合社会道德标准相关联，而“可能性”则表示对事件发生的期望。在情感认知结构理论中，每个情感维度变量有不同的取值。 “合意性（ｄｅｓｉｒａｂｉｌｉｔｙ）”维度的取值包括 “ 合意的（ｄｅｓｉｒａｂｌｅ）” 和 “ 不合意的（ｕｎｄｅｓｉｒａｂｌｅ）”。当某些事件的发生有利于最终目标的实现时，这种情况对于主体而言是合意的；反之则是不合意的。类似地，“褒贬性（ｐｒａｉｓｅ⁃／ｂｌａｍｅ⁃ ｗｏｒｔｈｉｎｅｓｓ）” 维度的取值有 “ 值得称赞的（ｐｒａｉｓｅｗｏｒｔｈｙ）” 和 “ 应受责备的（ｂｌａｍｅｗｏｒｔｈｙ）”。 “可能性（ｌｉｋｅｌｉｈｏｏｄ）” 维度有“可能的（ｌｉｋｅｌｙ）” 和 “确定的（ｃｅｒｔａｉｎ）” 这两个取值。情感维度变量的不同取值及其组合可以生成不同的情感类型。例如，如果“合意的”事件的可能性是“确定的”，引发 “高兴（ｊｏｙ）”情感；否则引发“希望（ｈｏｐｅ）”。如果个体“值得表扬的（ｐｒａｉｓｅｗｏｒｔｈｙ）” 行为带来合乎自己心意的行为后果，则导致“骄傲（ｐｒｉｄｅ）”情感的产生。表１给出了３个情感维度变量与情感类型之间的对应关系。表１３个情感维度变量及其对应的情感类型Ｔａｂｌｅ１Ｔｈｒｅｅｅｍｏｔｉｏｎａｌｄｉｍｅｎｓｉｏｎｖａｒｉａｂｌｅｓａｎｄｔｈｅｉｒｃｏｒｒｅｓｐｏｎｄｉｎｇｅｍｏｔｉｏｎｔｙｐｅｓ合意性褒贬性可能性情感类型合意的 — 确定的高兴不合意的 — 确定的悲伤合意的 — 可能的希望不合意的 — 可能的恐惧合意的值得称赞的确定的骄傲不合意的应受责备的确定的羞耻表１左边３列是情感维度取值列表，右边一列是在特定的情感维度取值下所产生的情感类型。本文的研究思路基于经典的ＯＣＣ情感模型，选取其最主要的３个情感维度，以挖掘文中包含的这３类维度变量的情感。词为重点，通过建立相应的情感维度词典，自动推演出６种主要的情感类型：高兴（ｊｏｙ）、悲伤（ｄｉｓｔｒｅｓｓ）、希望（ｈｏｐｅ）、恐惧（ｆｅａｒ）、骄傲（ｐｒｉｄｅ）和羞耻（ｓｈａｍｅ）。２基于ＯＣＣ模型的情感挖掘方法结合前面介绍的ＯＣＣ情感认知结构模型，建立自动识别文本中情感类型的方法。基于ＯＣＣ模型的情感类型挖掘问题可以分解成两个子问题：１）自动构建高质量的情感维度词典，即建立包括具体的词和抽象的情感维度值之间的映射关系；２）基于ＯＣＣ模型，以规则的形式建立情感维度值与情感类型间的对应关系。构建情感维度词典则是建立文本情感类型识别系统的关键。情感维度词典涵盖了比通常仅包含正负极性的情感词库更丰富的信息，所以在构建情感维度词典时，综合考虑了依存句法关系、语义关系和统计信息。由于构建后的情感维度词典存在语义、情感倾向的不一致性等问题，因此还需要对情感维度词典进一步求精，过滤掉低质量的候选词。图１是基于ＯＣＣ情感模型的观点挖掘方法的数据流图，主要由情感维度词典的构建、求精和情感类型的生成３个模块组成。该方法基于海量开源文本输入，以句子为单位输出情感类型及其关联的情感对象。其中，情感维度词典的构建模块利用通用语义词典和句法依存关系建立关于各情感维度值的词典，情感维度词典的求精模块包括语义、正负情感倾向的不一致性处理和非情感词的过滤。针对前２个模块，文中还提出了融合Ｂｏｏｔｓｔｒａｐｐｉｎｇ的构建与求精同步的改进算法。情感类型的生成模块基于前２个模块得到情感维度词典，利用经典的ＯＣＣ情感模型，获得情感类型。最后，得到情感类型与情感对象相结合的输出结果，以满足用户需求。图１基于ＯＣＣ模型的本文情感挖掘方法Ｆｉｇ．１ＯＣＣｍｏｄｅｌ⁃ｂａｓｅｄｅｍｏｔｉｏｎｍｉｎｉｎｇｍｅｔｈｏｄｆｒｏｍｔｅｘｔｓ２．１情感维度词典的构建与求精情感维度词典是基于ＷｏｒｄＮｅｔ词典和句法依存关系，采用统计的方法自动构建的。ＷｏｒｄＮｅｔ词典可以提供词的语义解释和词之间的关系，有同义词、反义词、还原词、派生词等。句法依存关系是指，通过句法分析树中得到的词之间存在的联系，第５期皇甫璐雯，等：一种基于ＯＣＣ模型的文本情感挖掘方法 ·６４７·

648 智能系统学报第12卷可以提示词之间潜在的关系。度词典候选集进行评价与过滤，选取其中评分大于为自动构建情感维度词典，首先手工挑选少量阈值的候选集中的情感词，放入相应的情感维度词高质量的情感维度值种子词（不超过10个）和4个典中：依存关系模板。其中，关于每个情感维度值的种子 ∑c(w,u) DIC∑ c(v,u 词包含词的原型和词性信息。加入词性信息是因 f八v∈DICs)= u壁DIC 为相同的词在词性不同的时候含义大不相同，例 ∑c(, IDICI∑c(u,w) 如：sentence做动词时，意思为“判刑”，维度是 (1) Blameworthy;但是做名词时，意思为“句子”，可以认 4)不断重复步骤2)~3)，直到不再有新的情感为不是情感词。4个依存关系包括conj_and、conj 维度词加入； or、prep_in和parataxis。其含义分别是词之间的并 5)利用WordNet中的派生以及还原关系扩充列and关系、词之间的并列or关系、词之间的介词情感维度词典。 i关系和2个词在分句中所处的并列关系。然而，构建情感维度词典过程中的输入是海量的文仅仅依靠依存关系可能会有一些问题。比如，简单本和关于某个情感维度值的种子词，输出是针对这的并列关系“wonderful and exciting'”中wonderful和个情感维度值建立起来的情感维度词典。这里涉 exciting是同义词关系；而在另一个短语“young and 及3个维度，6个维度值，情感维度值可以是“合意 old”中，young和old有着强烈的反义词关系而不是的”“不合意的”“值得称赞的”“应受责备的”“可同义词关系。由此可见，尽管模板comj_and可以提能的”和“确定的”，分别简写为“D”“U”“P”“B” 示词之间存在语义关系，但是这种语义关系到底是 “L”“C”。其中L、C情感维度词典的构建仅仅依赖致还是恰好相反需要借助词典来进一步判断。 WordNet中词之间的语义关系，并且Likelihood维度因此，基于词典的方法不但用来寻找候选的情感维的默认值为C。度词，而且用来判断候选情感维度词的情感维度值循环初始时挑选的高质量情感维度种子词为的合理性。 1)和2)提供一个良好的基础。1)和2)的目的是分在第一轮循环开始，对于每种情感维度值挑选别基于词典和基于依存关系获得候选的情感维度少量高质量的种子词，作为初始的情感维度词典输词。3)通过计算一个评分函数保证进入情感维度入。情感维度词典包括DIC。(合意的)、DIC,(不词典的词的质量。最后，在情感维度词典中的词基合意的)、DIC。(值得称赞的)、DIC:(应受责备于WordNet中的同义、反义、还原和派生关系进行扩的)。挑选情感维度种子词有多种策略，可以通过充。比如，如果“harm”是在情感维度词典中维度值手工查看数据集凭经验进行挑选或者通过计算词为“blameworthy”的词，扩充它的派生词“harmful”到出现的频率挑选出频率高并且包含情感维度值的情感维度词典中，同时它的情感维度值也为词作为种子词。 “blameworthy”。 2.1.1构建过程评分函数f(v∈DICk)主要是基于共现的思在每一轮循环中，用WordNet和手工挑选的模想，如果待评价的情感词与某一已知情感维度值的板不断地抽取不同维度值下的情感词。在每一轮情感词共同出现的次数越多，则该情感词的维度值循环后，利用一个基于共现思想的评分函数来评估就更有可能成为该情感维度值。在每一轮循环中，抽取的情感维度词。情感维度词典的构建过程评分函数利用WordNet词典和句法依存关系得到候如下。选集，通过设定共现次数的阈值日，过滤掉低质量 1)针对情感维度词典中每个新加入的情感维的候选情感维度词。这里v是当前待评价的候选情度词，基于WordNet词典，找出其同义词和反义词，感词，u是已知情感维度值为k的情感维度词典中并将其同义词和反义词分别放入相应的情感维度的词，k的取值可以是“D”“U”“P”“B”。DICg是词典候选集中。当前生成的维度值为k的情感维度词典，|DIC4|表 2)利用前面提到的4个句法依存关系从输入示情感维度词典元素个数。DIC是当前所有情感维的海量文本中找出与所述相应的情感维度词典中度词典的并集，其元素个数为|DIC。函数c(v,u) 已有的情感维度词具有依存关系的新情感维度词：表示词v和词u在同一语句中共现的次数。评分函放入相应的情感维度词典候选集中。数中词，是否属于某类情感维度词典的计算既考虑 3)利用(1)式所示的评分函数对相应的情感维了)与该类情感维度词共现的次数（作为后验），也

可以提示词之间潜在的关系。为自动构建情感维度词典，首先手工挑选少量高质量的情感维度值种子词（不超过１０个）和４个依存关系模板。其中，关于每个情感维度值的种子词包含词的原型和词性信息。加入词性信息是因为相同的词在词性不同的时候含义大不相同，例如：ｓｅｎｔｅｎｃｅ做动词时，意思为 “ 判刑”，维度是Ｂｌａｍｅｗｏｒｔｈｙ；但是做名词时，意思为“句子”，可以认为不是情感词。４个依存关系包括ｃｏｎｊ＿ａｎｄ、ｃｏｎｊ＿ｏｒ、ｐｒｅｐ＿ｉｎ和ｐａｒａｔａｘｉｓ。其含义分别是词之间的并列ａｎｄ关系、词之间的并列ｏｒ关系、词之间的介词ｉｎ关系和２个词在分句中所处的并列关系。然而，仅仅依靠依存关系可能会有一些问题。比如，简单的并列关系“ｗｏｎｄｅｒｆｕｌａｎｄｅｘｃｉｔｉｎｇ”中ｗｏｎｄｅｒｆｕｌ和ｅｘｃｉｔｉｎｇ是同义词关系；而在另一个短语“ ｙｏｕｎｇａｎｄｏｌｄ”中，ｙｏｕｎｇ和ｏｌｄ有着强烈的反义词关系而不是同义词关系。由此可见，尽管模板ｃｏｎｊ＿ａｎｄ可以提示词之间存在语义关系，但是这种语义关系到底是一致还是恰好相反需要借助词典来进一步判断。因此，基于词典的方法不但用来寻找候选的情感维度词，而且用来判断候选情感维度词的情感维度值的合理性。在第一轮循环开始，对于每种情感维度值挑选少量高质量的种子词，作为初始的情感维度词典输入。情感维度词典包括ＤＩＣＤ（合意的）、ＤＩＣＵ（不合意的）、ＤＩＣＰ（值得称赞的）、ＤＩＣＢ（应受责备的）。挑选情感维度种子词有多种策略，可以通过手工查看数据集凭经验进行挑选或者通过计算词出现的频率挑选出频率高并且包含情感维度值的词作为种子词。２．１．１构建过程在每一轮循环中，用ＷｏｒｄＮｅｔ和手工挑选的模板不断地抽取不同维度值下的情感词。在每一轮循环后，利用一个基于共现思想的评分函数来评估抽取的情感维度词。情感维度词典的构建过程如下。１）针对情感维度词典中每个新加入的情感维度词，基于ＷｏｒｄＮｅｔ词典，找出其同义词和反义词，并将其同义词和反义词分别放入相应的情感维度词典候选集中。２）利用前面提到的４个句法依存关系从输入的海量文本中找出与所述相应的情感维度词典中已有的情感维度词具有依存关系的新情感维度词，放入相应的情感维度词典候选集中。３）利用（１）式所示的评分函数对相应的情感维度词典候选集进行评价与过滤，选取其中评分大于阈值的候选集中的情感词，放入相应的情感维度词典中：ｆ（ｖ ∈ ＤＩＣｋ）＝ ∑ｕ∈ＤＩＣｋｃ（ｖ，ｕ） ∑ｕｃ（ｖ，ｕ）＋ＤＩＣｋ ∑ｕ∉ＤＩＣｃ（ｖ，ｕ）ＤＩＣ ∑ｕｃ（ｖ，ｕ）（１）４）不断重复步骤２）～３），直到不再有新的情感维度词加入；５）利用ＷｏｒｄＮｅｔ中的派生以及还原关系扩充情感维度词典。构建情感维度词典过程中的输入是海量的文本和关于某个情感维度值的种子词，输出是针对这个情感维度值建立起来的情感维度词典。这里涉及３个维度，６个维度值，情感维度值可以是“合意的” “不合意的” “值得称赞的” “应受责备的” “可能的”和“确定的”，分别简写为“Ｄ” “Ｕ” “Ｐ” “Ｂ” “Ｌ” “Ｃ”。其中Ｌ、Ｃ情感维度词典的构建仅仅依赖ＷｏｒｄＮｅｔ中词之间的语义关系，并且Ｌｉｋｅｌｉｈｏｏｄ维度的默认值为Ｃ。循环初始时挑选的高质量情感维度种子词为１）和２）提供一个良好的基础。１）和２）的目的是分别基于词典和基于依存关系获得候选的情感维度词。３）通过计算一个评分函数保证进入情感维度词典的词的质量。最后，在情感维度词典中的词基于ＷｏｒｄＮｅｔ中的同义、反义、还原和派生关系进行扩充。比如，如果“ｈａｒｍ”是在情感维度词典中维度值为“ｂｌａｍｅｗｏｒｔｈｙ”的词，扩充它的派生词“ｈａｒｍｆｕｌ”到情感维度词典中，同时它的情感维度值也为 “ｂｌａｍｅｗｏｒｔｈｙ”。评分函数ｆ（ｖ ∈ ＤＩＣｋ）主要是基于共现的思想，如果待评价的情感词与某一已知情感维度值的情感词共同出现的次数越多，则该情感词的维度值就更有可能成为该情感维度值。在每一轮循环中，评分函数利用ＷｏｒｄＮｅｔ词典和句法依存关系得到候选集，通过设定共现次数的阈值 θ１，过滤掉低质量的候选情感维度词。这里ｖ是当前待评价的候选情感词，ｕ是已知情感维度值为ｋ的情感维度词典中的词，ｋ的取值可以是“Ｄ” “Ｕ” “Ｐ” “Ｂ”。ＤＩＣｋ是当前生成的维度值为ｋ的情感维度词典，ＤＩＣｋ表示情感维度词典元素个数。ＤＩＣ是当前所有情感维度词典的并集，其元素个数为ＤＩＣ。函数ｃ（ｖ，ｕ）表示词ｖ和词ｕ在同一语句中共现的次数。评分函数中词ｖ是否属于某类情感维度词典的计算既考虑了ｖ与该类情感维度词共现的次数（作为后验），也 ·６４８· 智能系统学报第１２卷

第5期皇甫璐雯，等：一种基于OCC模型的文本情感挖掘方法 .649. 考虑到该类情感维度词典在当前所有情感维度词 score=a·scorepolariyl+(1-a)·scorep2(3）典中所占的词的比例（作为先验）。 (0≤a≤1) 2.1.2求精过程式中score1和Score2虽然基于相同的(2) 构建完成后的情感维度词典往往存在不一致式，但是分别利用了上面提到的不同的极性词典计性或者噪声，包括语义不一致性、情感倾向不一致算而得的。通过设定score的阈值，以避免加入质量性，以及非情感词等。因此利用情感维度词的同义过低的词。词集合和反义词集合检查情感维度词的正负倾向， 2.2情感类型的生成从而过滤掉质量低的情感维度词，完成情感维度词完成构建和求精情感维度词典后，便可以利用典的求精过程 OCC情感模型生成情感类型。情感类型的生成基语义不一致性是指同一个词在同一情感维度于情感认知结构模型，根据该模型中每种情感类型上具有相互矛盾的取值，比如在“褒贬性”维度上同与情感维度及其取值的对应关系，自动生成6种主时具有“P”和“B”这两个维度值或者在“合意性”维要的情感类型。具体地说，“合意性”维度值为“合度上同时具有“D”和“U”这两个维度值：情感倾向意的”并且“可能性”维度值为“确定的”时对应的情不一致性是指一个词同时具有正负情感倾向相互感类型为“高兴”；“合意性”维度值为“不合意的” 冲突的情感维度值。情感词的极性可以是正向或且“可能性”维度值为“确定的”对应的情感类型为负向。根据含义可知，“P”和“D”表示对情感对象 “悲伤”：“合意性”维度值为“合意的”且“可能性” 的正面态度或评价，故极性为正；“B”和“U”表示对维度值为“可能的”对应的情感类型为“希望”：“合情感对象的负面态度或评价，故极性为负。若检测意性”维度值为“不合意的”且“可能性”维度值为到语义或情感倾向不一致的词，对该情感词的求精 “可能的”对应的情感类型为“恐惧”：“合意性”维方法根据通用语义词典中的同义和反义关系共同度值为“合意的”，“褒贬性”维度值为“值得称赞确定其情感倾向。当前待求精的情感维度词的计的”且“可能性”维度值为“确定的”对应的情感类型算公式如式(2)：为“骄傲”：“合意性”维度值为“不合意的”，“褒贬 score =st-nso nAm-nAnt- 性”维度值为“应受责备的”且“可能性”维度值为 (2) 2·nsym 2·nAm “确定的”对应的情感类型为“羞耻”。工作实现的式中：ns、nu分别是当前待求精的情感词的同义 6种情感类型生成规则如下。词和反义词的总数，n+、nsm-分别是该词的极性规则1如果“合意性”维度值=“合意的”并且为正和为负的同义词个数，nsnn-分别是该词 “可能性”维度值=“确定的”对应的情感类型=“高的极性为正和为负的反义词个数。同时，为了保证兴”。同义词和反义词集合的均衡性，将其归一化后相规则2如果“合意性”维度值=“不合意的” 加。如果计算得到的score值小于某一阈值02，则并且“可能性”维度值=“确定的”对应的情感类型= 过滤掉该情感词。由于以往相关工作中已建立了 “悲伤”。多个关于情感词的正负极性词典，这里nsyn Ant的规则3如果“合意性”维度值=“不合意”并且正负极性可通过参照这些情感极性词典来确定。 “可能性”维度值=“可能的”对应的情感类型=“希非情感词包括无实际意义的词，如具体数字、望”。代词等，也包括中性的名词和动词。过滤的方法包规则4如果“合意性”维度值=“不合意的” 括直接列出这些明显的不应该加入的词加以过滤，并且“可能性”维度值=“可能的”对应的情感类型= 或者计算情感倾向，将某一阈值范围内的词别除。 “恐惧”。除了以本身建造的情感维度词典作为极性词规则5如果“合意性”维度值=“合意的”并且典，还采用一个公开的极性词表。选择这两个极 “褒贬性”维度值=“值得称赞的”对应的情感类性词典的原因是它们的优势可以互补。构建的情型=“骄傲”。感维度词典能够覆盖到较大集合的情感维度词，词规则6如果“合意性”维度值=“不合意的”并性词表尽管质量高，但是包含词的数量非常有限，且“褒贬性”维度值=“应受责备的”对应的情感类并且只有词的极性信息。所以，两者结合后彼此扬型=“羞耻”。长避短。同时可以通过(3)式进一步提高词的根据前述的情感类型的生成过程，下面给出一质量。个具体示例

考虑到该类情感维度词典在当前所有情感维度词典中所占的词的比例（作为先验）。２．１．２求精过程构建完成后的情感维度词典往往存在不一致性或者噪声，包括语义不一致性、情感倾向不一致性，以及非情感词等。因此利用情感维度词的同义词集合和反义词集合检查情感维度词的正负倾向，从而过滤掉质量低的情感维度词，完成情感维度词典的求精过程。语义不一致性是指同一个词在同一情感维度上具有相互矛盾的取值，比如在“褒贬性”维度上同时具有“Ｐ”和“Ｂ”这两个维度值或者在“合意性”维度上同时具有“Ｄ”和“Ｕ”这两个维度值；情感倾向不一致性是指一个词同时具有正负情感倾向相互冲突的情感维度值。情感词的极性可以是正向或负向。根据含义可知，“Ｐ”和“Ｄ”表示对情感对象的正面态度或评价，故极性为正；“Ｂ”和“Ｕ”表示对情感对象的负面态度或评价，故极性为负。若检测到语义或情感倾向不一致的词，对该情感词的求精方法根据通用语义词典中的同义和反义关系共同确定其情感倾向。当前待求精的情感维度词的计算公式如式（２）：ｓｃｏｒｅ＝ｎＳｙｎ＋－ｎＳｙｎ－２·ｎＳｙｎ－ｎＡｎｔ＋－ｎＡｎｔ－２·ｎＡｎｔ（２）式中：ｎＳｙｎ、ｎＡｎｔ分别是当前待求精的情感词的同义词和反义词的总数，ｎＳｙｎ＋、ｎＳｙｎ－分别是该词的极性为正和为负的同义词个数，ｎＳｙｎ－、ｎＡｎｔ－分别是该词的极性为正和为负的反义词个数。同时，为了保证同义词和反义词集合的均衡性，将其归一化后相加。如果计算得到的ｓｃｏｒｅ值小于某一阈值 θ２，则过滤掉该情感词。由于以往相关工作中已建立了多个关于情感词的正负极性词典，这里ｎＳｙｎ、ｎＡｎｔ的正负极性可通过参照这些情感极性词典来确定。非情感词包括无实际意义的词，如具体数字、代词等，也包括中性的名词和动词。过滤的方法包括直接列出这些明显的不应该加入的词加以过滤，或者计算情感倾向，将某一阈值范围内的词剔除。除了以本身建造的情感维度词典作为极性词典，还采用一个公开的极性词表［９］。选择这两个极性词典的原因是它们的优势可以互补。构建的情感维度词典能够覆盖到较大集合的情感维度词，词性词表尽管质量高，但是包含词的数量非常有限，并且只有词的极性信息。所以，两者结合后彼此扬长避短。同时可以通过（３）式进一步提高词的质量。ｓｃｏｒｅ＝ α·ｓｃｏｒｅｐｏｌａｒｉｔｙ１＋（１－ α）·ｓｃｏｒｅｐｏｌａｒｉｔｙ２（３）（０ ≤ α ≤ １）式中ｓｃｏｒｅｐｏｌａｒｉｔｙ１和ｓｃｏｒｅｐｏｌａｒｉｔｙ２虽然基于相同的（２）式，但是分别利用了上面提到的不同的极性词典计算而得的。通过设定ｓｃｏｒｅ的阈值，以避免加入质量过低的词。２．２情感类型的生成完成构建和求精情感维度词典后，便可以利用ＯＣＣ情感模型生成情感类型。情感类型的生成基于情感认知结构模型，根据该模型中每种情感类型与情感维度及其取值的对应关系，自动生成６种主要的情感类型。具体地说，“合意性” 维度值为“合意的”并且“可能性”维度值为“确定的”时对应的情感类型为“高兴”；“合意性” 维度值为“不合意的” 且“可能性”维度值为“确定的”对应的情感类型为 “悲伤”；“合意性”维度值为“合意的”且“可能性” 维度值为“可能的”对应的情感类型为“希望”；“合意性”维度值为“不合意的” 且“可能性” 维度值为 “可能的”对应的情感类型为“恐惧”；“合意性” 维度值为“合意的”，“褒贬性” 维度值为 “值得称赞的”且“可能性”维度值为“确定的”对应的情感类型为“骄傲”；“合意性”维度值为“不合意的”， “褒贬性”维度值为“应受责备的” 且“可能性”维度值为 “确定的”对应的情感类型为“羞耻”。工作实现的６种情感类型生成规则如下。规则１如果“合意性”维度值＝ “合意的”并且 “可能性”维度值＝ “确定的”对应的情感类型＝ “高兴”。规则２如果“合意性” 维度值＝ “不合意的” 并且“可能性”维度值＝ “确定的”对应的情感类型＝ “悲伤”。规则３如果“合意性”维度值＝ “不合意”并且 “可能性”维度值＝ “可能的” 对应的情感类型＝ “希望”。规则４如果 “合意性”维度值＝ “不合意的” 并且“可能性”维度值＝ “可能的”对应的情感类型＝ “恐惧”。规则５如果“合意性”维度值＝ “合意的”并且 “褒贬性” 维度值＝ “值得称赞的” 对应的情感类型＝ “骄傲”。规则６如果“合意性”维度值＝ “不合意的”并且“褒贬性”维度值＝ “应受责备的” 对应的情感类型＝ “羞耻”。根据前述的情感类型的生成过程，下面给出一个具体示例。第５期皇甫璐雯，等：一种基于ＯＣＣ模型的文本情感挖掘方法 ·６４９·

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录