第15卷第3期 智能系统学报 Vol.15 No.3 2020年5月 CAAI Transactions on Intelligent Systems May 2020 D0L:10.11992tis.201812017 层次化双注意力神经网络模型的情感分析研究 曾碧卿,韩旭丽2,王盛玉2,周武2,杨恒2 (1.华南师范大学软件学院,广东佛山528225,2.华南师范大学计算机学院,广东广州510631) 摘要:在篇章级的情感分类中由于篇章级文本较长,特征提取较普通句子级分析相对较难,大多方法使用层 次化的模型进行篇章文本的情感分析,但目前的层次化模型多以循环神经网络和注意力机制为主,单一的循环 神经网络结构提取的特征不够明显。本文针对篇章级的情感分类任务,提出一种层次化双注意力神经网络模 型。首先对卷积神经网络进行改进,构建词注意力卷积神经网络。然后模型从两个层次依次提取篇章特征,第 一层次使注意力卷积神经网络发现每个句子中的重要词汇,提取句子的词特征,构建句子特征向量:第二层次 以循环神经网络获取整个篇章的语义表示,全局注意力机制发现篇章中每个句子的重要性,分配以不同的权 重,最后构建篇章的整体语义表示。在IMDB、YELP2013、YELP2014数据集上的实验表明,模型较当前最好 的模型更具优越性。 关键词:情感分析:注意力机制;卷积神经网络:情感分类;循环神经网络:词向量:深度学习:特征选取 中图分类号:TP391文献标志码:A文章编号:1673-4785(2020)03-0460-08 中文引用格式:曾碧卿,韩旭丽,王盛玉,等.层次化双注意力神经网络模型的情感分析研究.智能系统学报,2020,15(3): 460-467. 英文引用格式:ZENGBiqing,.HAN Xuli,WANG Shengyu,.etal.Hierarchical double-attention neural networks for sentiment clas sification[J].CAAI transactions on intelligent systems,2020,15(3):460-467. Hierarchical double-attention neural networks for sentiment classification ZENG Biqing HAN Xuli,WANG Shengyu',ZHOU Wu,YANG Heng (1.College of Software,South China Normal University,Foshan 528225,China;2.College of Computer,South China Normal University,Guangzhou 510631,China) Abstract:In sentiment classification,feature extraction in the document level is more difficult than the analysis in the common sentence level because of the length of the text.Most methods apply a hierarchical model to the sentiment ana- lysis of text in the document level.However,most existing hierarchical methods mainly focus on a recurrent neural net- work(RNN)and attention mechanism,and the feature extracted by a single RNN is unclear.To solve the sentiment clas- sification problem in the document level,we propose a hierarchical double-attention neural network model.In the first step,we improve a convolutional neural network(CNN),construct a word attention CNN,and then extract the features of the chapter from two levels.In the first level,the attention CNN can identify important words and phrases from every sentence,extract the word feature of the sentence,and construct the feature vector of the sentence.In the second level, the semantic meaning of the document is derived by the RNN.The global attention mechanism can find the importance of every sentence in the document,attribute different weights to them,and construct the whole semantic representation of the document.The experiment results on IMDB,YELP 2013,and YELP 2014 datasets show that our model achieves a more significant improvement than all state-of-the-art methods. Keywords:sentiment analysis;attention mechanism;convolutional neural network(CNN);sentiment classification;re- current neural network (RNN);word vector;deep learning;feature selection 情感分析的目的是根据用户或者产品中的数 收稿日期:2018-12-15. 基金项目:国家自然科学基金项目(61772211,61503143). 据进行分析其极性特征,得出用户的行为分析结 通信作者:曾碧卿.E-mail:zengbiqing0528@163.com. 果。目前,情感分析已经得到工业界和学术界的
DOI: 10.11992/tis.201812017 层次化双注意力神经网络模型的情感分析研究 曾碧卿1 ,韩旭丽2 ,王盛玉2 ,周武2 ,杨恒2 (1. 华南师范大学 软件学院,广东 佛山 528225; 2. 华南师范大学 计算机学院,广东 广州 510631) 摘 要:在篇章级的情感分类中由于篇章级文本较长,特征提取较普通句子级分析相对较难,大多方法使用层 次化的模型进行篇章文本的情感分析,但目前的层次化模型多以循环神经网络和注意力机制为主,单一的循环 神经网络结构提取的特征不够明显。本文针对篇章级的情感分类任务,提出一种层次化双注意力神经网络模 型。首先对卷积神经网络进行改进,构建词注意力卷积神经网络。然后模型从两个层次依次提取篇章特征,第 一层次使注意力卷积神经网络发现每个句子中的重要词汇,提取句子的词特征,构建句子特征向量;第二层次 以循环神经网络获取整个篇章的语义表示,全局注意力机制发现篇章中每个句子的重要性,分配以不同的权 重,最后构建篇章的整体语义表示。在 IMDB、YELP 2013、YELP 2014 数据集上的实验表明,模型较当前最好 的模型更具优越性。 关键词:情感分析;注意力机制;卷积神经网络;情感分类;循环神经网络;词向量;深度学习;特征选取 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)03−0460−08 中文引用格式:曾碧卿, 韩旭丽, 王盛玉, 等. 层次化双注意力神经网络模型的情感分析研究 [J]. 智能系统学报, 2020, 15(3): 460–467. 英文引用格式:ZENG Biqing, HAN Xuli, WANG Shengyu, et al. Hierarchical double-attention neural networks for sentiment classification[J]. CAAI transactions on intelligent systems, 2020, 15(3): 460–467. Hierarchical double-attention neural networks for sentiment classification ZENG Biqing1 ,HAN Xuli2 ,WANG Shengyu2 ,ZHOU Wu2 ,YANG Heng2 (1. College of Software, South China Normal University, Foshan 528225, China; 2. College of Computer, South China Normal University, Guangzhou 510631, China) Abstract: In sentiment classification, feature extraction in the document level is more difficult than the analysis in the common sentence level because of the length of the text. Most methods apply a hierarchical model to the sentiment analysis of text in the document level. However, most existing hierarchical methods mainly focus on a recurrent neural network (RNN) and attention mechanism, and the feature extracted by a single RNN is unclear. To solve the sentiment classification problem in the document level, we propose a hierarchical double-attention neural network model. In the first step, we improve a convolutional neural network (CNN), construct a word attention CNN, and then extract the features of the chapter from two levels. In the first level, the attention CNN can identify important words and phrases from every sentence, extract the word feature of the sentence, and construct the feature vector of the sentence. In the second level, the semantic meaning of the document is derived by the RNN. The global attention mechanism can find the importance of every sentence in the document, attribute different weights to them, and construct the whole semantic representation of the document. The experiment results on IMDB, YELP 2013, and YELP 2014 datasets show that our model achieves a more significant improvement than all state-of-the-art methods. Keywords: sentiment analysis; attention mechanism; convolutional neural network (CNN); sentiment classification; recurrent neural network (RNN); word vector; deep learning; feature selection 情感分析的目的是根据用户或者产品中的数 据进行分析其极性特征,得出用户的行为分析结 果。目前,情感分析已经得到工业界和学术界的 收稿日期:2018−12−15. 基金项目:国家自然科学基金项目 (61772211,61503143). 通信作者:曾碧卿. E-mail:zengbiqing0528@163.com. 第 15 卷第 3 期 智 能 系 统 学 报 Vol.15 No.3 2020 年 5 月 CAAI Transactions on Intelligent Systems May 2020
第3期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·461· 广泛关注。 征。第二层中,GRU神经网络可提取到整个篇章 篇章的情感分类是情感分析任务中的一项基 的语义,全局注意力可关注到篇章中的重点句 础任务,假设每个篇章只有一个情感目标的情况 子,得到篇章的整体语义信息s。 下,分析篇章的情感极性得到情感倾向性。Pang 本文主要贡献如下: 等采用了传统统计学的方法在情感分析上进行 1)利用注意力机制与卷积神经网络进行建 应用,对文本中词的性质特征进行有效的标注, 模,构建层化的情感分类模型,改进的CNN可有 该方法在情感分析的实验中取得良好的实验效 效发现句子的重点词汇,形成句子表示; 果,由此证明了标记词性在情感分析上具有积极 2)本文的模型在多个数据集上取得当前最好 的意义。Lu等利用词典WordNet来发现情感 实验效果: 词汇。Wang等)将机器学习方法SVM与朴素 3)本文从局部特征和全局语义两个角度提取 叶斯方法进行结合,在情感分类任务中得到良好 特征,两个注意力机制分别关注不同的侧面,多 的实验效果。Kiritchenko等使用tweets中的标 元的特征更有助于篇章的表达。 签和表情来构建情感特征。 神经网络模型在自然语言处理的各个领域都 1相关工作 取得较好效果,如命名实体识别6、机器阅读 篇章级别的情感分类是情感分析的一项基础 和问答系统。在篇章情感分析中,Kimo提出用 工作,Pang等川将情感分类问题视为同篇章分 词向量训练方法表示文本信息,在CNN模型中成 类相似的任务,采用监督学习算法解决该任务。 功地进行文本的篇章分类。Kalchbrenner等l Wan1使用英文数据作为训练集,训练模型解决 构建卷积神经网络模型,采用MAX-Pooling进行 了中文情感分类问题,用于解决交叉语言情感分 提取情感特征并取得良好的实验效果。Zhang等回 析的难题。Zagibalov等11提出一种能自动提取 使用字符作为最小单元,以卷积神经网络进行文 商品评论中情感词的方法,该方法是一种无监督 本分类,在多个数据上取得较好效果。 的机器学习算法,无需任何的标注数据集。 层次化神经网络模型和注意力机制结合在情 但是,上述方法多依赖于特征工程,在构建特 感分析中取得较好效果。Tang等)建立了一种 征工程过程中需要耗费大量时间和财力,并且不 层次化模型,使用CNN和LSTM从词和句子两个 能很好地提取到评论的语法和语义信息。词嵌 角度获取篇章的特征表示。Yang等l将注意力 入92)原理在于,利用一个计算好的词典向量表 机制与层次化模型结合,利用注意力机制分别关 将文本映射成相应的实值向量。Tang等22使用 注句子中的关键词和篇章中的关键句子。这些方 ~种改进的基于情感信息辅助的词嵌入方法提高 法多以循环神经网络模型为基础,结合注意力构 情感分析的准确性。其他的传统神经网络模型在 建层次化的模型,或者仅从词角度分析篇章。 情感分析任务中应用得非常广泛,如RNN和CNN 在篇章级的文本情感分析中,理想的层次化 常被用来设计模型,并且承担了大量的情感分析 任务。Kimo以CNN为基础构建了一个多通道 情感分析模型应当在层次的第一层中将重点情感 特征进行明显表示,以帮助模型挖掘到重要的情 CNN模型,以此提取多方面的情感特征。Johnson 感特征。在第二层发现并整合篇章的重要句子, 等21用单词的独热表示作为输入特征,使模型学 习到更深层的语义特征,从而进行情感分析。 得到篇章整体语义。CNN具有较强的局部特征 Socher等2a在RNN上进行构建情感分类模型并 提取能力,但CNN无法自动判别输入文本中哪些 取得良好的实验效果。Tang等l1提出将卷积神 局部特征词较为重要,故本文首先结合注意力和 经网络与循环神经网络进行结合的基于层次化的 卷积神经网络构建词注意力的卷积神经网络,发 篇章分类模型。该模型首先利用CNN或RNN学 现重点词汇。因此,本文构建一个双注意力的层 习句子的特征表示。然后,使用一种带有门控机 次化情感分析模型。采用双注意力机制,模型使 制的RNN构建篇章的特征表示。 用两个注意力机制,分别关注重要的词汇和句 注意力机制是一种有效神经网络机制。Xu 子。在提取句子中的关键词时,使用局部注意力 等2利用注意力机制进行图像分析,在图像分类 机制,获取篇章关键句子时,使用全局注意力机 上改善了分类的性能。注意力机制在其他领域也 制。CNN有助于获取局部特征,局部注意力可使 有良好的应用,例如在机器翻译领域获得了应用 模型更有效地关注重点词汇,提取句子的局部特 研究,其常被用来优化encode-decode模型以解决
广泛关注。 篇章的情感分类是情感分析任务中的一项基 础任务,假设每个篇章只有一个情感目标的情况 下,分析篇章的情感极性得到情感倾向性。Pang 等 [1] 采用了传统统计学的方法在情感分析上进行 应用,对文本中词的性质特征进行有效的标注, 该方法在情感分析的实验中取得良好的实验效 果,由此证明了标记词性在情感分析上具有积极 的意义。Lu 等 [2] 利用词典 WordNet 来发现情感 词汇。Wang 等 [3] 将机器学习方法 SVM 与朴素贝 叶斯方法进行结合,在情感分类任务中得到良好 的实验效果。Kiritchenko 等 [4] 使用 tweets 中的标 签和表情来构建情感特征。 神经网络模型在自然语言处理的各个领域都 取得较好效果,如命名实体识别[5-6] 、机器阅读[7-8] 和问答系统[9]。在篇章情感分析中,Kim[10] 提出用 词向量训练方法表示文本信息,在 CNN 模型中成 功地进行文本的篇章分类。Kalchbrenner 等 [11] 构建卷积神经网络模型,采用 MAX-Pooling 进行 提取情感特征并取得良好的实验效果。Zhang 等 [12] 使用字符作为最小单元,以卷积神经网络进行文 本分类,在多个数据上取得较好效果。 层次化神经网络模型和注意力机制结合在情 感分析中取得较好效果。Tang 等 [13] 建立了一种 层次化模型,使用 CNN 和 LSTM 从词和句子两个 角度获取篇章的特征表示。Yang 等 [14] 将注意力 机制与层次化模型结合,利用注意力机制分别关 注句子中的关键词和篇章中的关键句子。这些方 法多以循环神经网络模型为基础,结合注意力构 建层次化的模型,或者仅从词角度分析篇章。 在篇章级的文本情感分析中,理想的层次化 情感分析模型应当在层次的第一层中将重点情感 特征进行明显表示,以帮助模型挖掘到重要的情 感特征。在第二层发现并整合篇章的重要句子, 得到篇章整体语义。CNN 具有较强的局部特征 提取能力,但 CNN 无法自动判别输入文本中哪些 局部特征词较为重要,故本文首先结合注意力和 卷积神经网络构建词注意力的卷积神经网络,发 现重点词汇。因此,本文构建一个双注意力的层 次化情感分析模型。采用双注意力机制,模型使 用两个注意力机制,分别关注重要的词汇和句 子。在提取句子中的关键词时,使用局部注意力 机制,获取篇章关键句子时,使用全局注意力机 制。CNN 有助于获取局部特征,局部注意力可使 模型更有效地关注重点词汇,提取句子的局部特 征。第二层中,GRU 神经网络可提取到整个篇章 的语义,全局注意力可关注到篇章中的重点句 子,得到篇章的整体语义信息[15-16]。 本文主要贡献如下: 1) 利用注意力机制与卷积神经网络进行建 模,构建层化的情感分类模型,改进的 CNN 可有 效发现句子的重点词汇,形成句子表示; 2) 本文的模型在多个数据集上取得当前最好 实验效果; 3) 本文从局部特征和全局语义两个角度提取 特征,两个注意力机制分别关注不同的侧面,多 元的特征更有助于篇章的表达。 1 相关工作 篇章级别的情感分类是情感分析的一项基础 工作[3] ,Pang 等 [1] 将情感分类问题视为同篇章分 类相似的任务,采用监督学习算法解决该任务。 Wan[17] 使用英文数据作为训练集,训练模型解决 了中文情感分类问题,用于解决交叉语言情感分 析的难题。Zagibalov 等 [18] 提出一种能自动提取 商品评论中情感词的方法,该方法是一种无监督 的机器学习算法,无需任何的标注数据集。 但是,上述方法多依赖于特征工程,在构建特 征工程过程中需要耗费大量时间和财力,并且不 能很好地提取到评论的语法和语义信息。词嵌 入 [19-21] 原理在于,利用一个计算好的词典向量表 将文本映射成相应的实值向量。Tang 等 [22] 使用 一种改进的基于情感信息辅助的词嵌入方法提高 情感分析的准确性。其他的传统神经网络模型在 情感分析任务中应用得非常广泛,如 RNN 和 CNN 常被用来设计模型,并且承担了大量的情感分析 任务。Kim[10] 以 CNN 为基础构建了一个多通道 CNN 模型,以此提取多方面的情感特征。Johnson 等 [23] 用单词的独热表示作为输入特征,使模型学 习到更深层的语义特征,从而进行情感分析。 Socher 等 [24] 在 RNN 上进行构建情感分类模型并 取得良好的实验效果。Tang 等 [13] 提出将卷积神 经网络与循环神经网络进行结合的基于层次化的 篇章分类模型。该模型首先利用 CNN 或 RNN 学 习句子的特征表示。然后,使用一种带有门控机 制的 RNN 构建篇章的特征表示。 注意力机制是一种有效神经网络机制。Xu 等 [25] 利用注意力机制进行图像分析,在图像分类 上改善了分类的性能。注意力机制在其他领域也 有良好的应用,例如在机器翻译领域获得了应用 研究,其常被用来优化 encode-decode 模型以解决 第 3 期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·461·
·462· 智能系统学报 第15卷 机器翻译效果不佳等问题26-27。Zhou等21结合 到模型,取得较好的情感分类效果。 LSTM和注意力机制用于情感分类。Allamanis 等2y在文本摘要领域使用attention机制,都取得 2层次化的双注意力神经网络模型 较好效果。Yin等0将卷积神经网络与注意力机 如图1所示,该图是层次化的双注意力神经 制融合,提出一种新的模型以用于情感分析。这 网络模型,模型进行篇章特征提取后,得到最终 些模型方法充分证明了注意力机制在卷积神经网 的情感特征,从而进行分析情感极性。首先对篇 络中的实验有效性。Wang等B提出将卷积神经 章中的每个句子通过词注意力卷积神经网络获取 网络与多个注意力进行结合并在情感分类任务中 句子的词特征,进而构建句子的特征表示;然后 取得了良好的实验效果。Chen等使用层次化 使用全局注意力机制的LSTM提取句子向量的整 的模型,借助注意力机制将用户和产品信息加入 体篇章表示。 词嵌入 注意力层 卷积层 池化层句子表示 BGRU 句子注意力篇章表示 图1层次化双注意力神经网络模型 Fig.I Architecture of hierarchical double-attention networks 2.1词特征提取 特征,而注意力机制的作用是为了将重要的特征 针对在情感分析应用模型中卷积神经网络模 进行突出。 型存在的缺点,本文提出一种词特征提取的词注 词嵌入层:文本进行词嵌入映射表示得到 意力卷积神经网络模型,具体包括如下几部分: 连续低维的实值向量,假设文本表示为S={w, 1)词嵌入层:词注意神经网络模型的第一层 w2,…,wn-l,w小,其中W:是文本中第i个词语或者 为词嵌入层,主要的作用是将词进行序列化表示 短语。本文利用one-hot算法对文本进行向量表 后得到文本的词嵌人表示。 示。本文设置的向量维度用d行表示: 2)词注意力层:针对上一层的输出,对词嵌 &=we,&∈R (1) 入层进行重点词提取,由此在词嵌入后进行添加 式中:e∈Rd是词嵌入矩阵;M表示整个数据集 词注意力机制,作用是减少在训练过程中噪声对 中词汇的数量;d代表词向量的维度。将文本进 实验的影响。 行词嵌入表示X={,x2,…,xn}o 3)卷积层:在词注意力层之后加入卷积层, 词注意力层:在词嵌入层表示后,让单词表 本文使用的卷积核的窗口大小为1、3、4和5。用 示中的情感特征更为突出,然后本文借助于n- 于提取更多的情感特征。 grams的语言模型,并借助该中心词的上下文的 在情感分析中,通过词注意力层和卷积层,使 n个词作为该中心词的语义表示。本文以大小 模型在训练过程中具有文本词特征的鉴别能力。 L=[P:-D,P+D]=1+2D的词表示该中心词的语 其卷积层是为了选出对情感分析作用帮助更大的 义表示。用Wm∈R作为滑动窗口的矩阵参数
机器翻译效果不佳等问题[26-27]。Zhou 等 [28] 结合 LSTM 和注意力机制用于情感分类。Allamanis 等 [29] 在文本摘要领域使用 attention 机制,都取得 较好效果。Yin 等 [30] 将卷积神经网络与注意力机 制融合,提出一种新的模型以用于情感分析。这 些模型方法充分证明了注意力机制在卷积神经网 络中的实验有效性。Wang 等 [31] 提出将卷积神经 网络与多个注意力进行结合并在情感分类任务中 取得了良好的实验效果。Chen 等 [32] 使用层次化 的模型,借助注意力机制将用户和产品信息加入 到模型,取得较好的情感分类效果。 2 层次化的双注意力神经网络模型 如图 1 所示,该图是层次化的双注意力神经 网络模型,模型进行篇章特征提取后,得到最终 的情感特征,从而进行分析情感极性。首先对篇 章中的每个句子通过词注意力卷积神经网络获取 句子的词特征,进而构建句子的特征表示;然后 使用全局注意力机制的 LSTM 提取句子向量的整 体篇章表示。 池化层 句子表示 … … … … … … … … … … … us v 词嵌入 注意力层 卷积层 BGRU 句子注意力 篇章表示 h2 hi hi h2 h1 h1 αi α2 α1 图 1 层次化双注意力神经网络模型 Fig. 1 Architecture of hierarchical double-attention networks 2.1 词特征提取 针对在情感分析应用模型中卷积神经网络模 型存在的缺点,本文提出一种词特征提取的词注 意力卷积神经网络模型,具体包括如下几部分: 1) 词嵌入层:词注意神经网络模型的第一层 为词嵌入层,主要的作用是将词进行序列化表示 后得到文本的词嵌入表示。 2) 词注意力层:针对上一层的输出,对词嵌 入层进行重点词提取,由此在词嵌入后进行添加 词注意力机制,作用是减少在训练过程中噪声对 实验的影响。 3) 卷积层:在词注意力层之后加入卷积层, 本文使用的卷积核的窗口大小为 1、3、4 和 5。用 于提取更多的情感特征。 在情感分析中,通过词注意力层和卷积层,使 模型在训练过程中具有文本词特征的鉴别能力。 其卷积层是为了选出对情感分析作用帮助更大的 特征,而注意力机制的作用是为了将重要的特征 进行突出。 S = {w1, w2,··· ,wn−1,wn} wi i d 词嵌入层:文本进行词嵌入映射表示得到 连续低维的实值向量,假设文本表示为 ,其中 是文本中第 个词语或者 短语。本文利用 one-hot 算法对文本进行向量表 示。本文设置的向量维度用 行表示: xi = wie, xi ∈ R d (1) e ∈ R |v|×d |ν| X = {x1, x2,··· , xn} 式中: 是词嵌入矩阵; 表示整个数据集 中词汇的数量;d 代表词向量的维度。将文本进 行词嵌入表示 。 L = [ pi − D, pi+D] = 1+2D Watt ∈ R L×d 词注意力层:在词嵌入层表示后,让单词表 示中的情感特征更为突出,然后本文借助于 ngrams 的语言模型,并借助该中心词的上下文的 n 个词作为该中心词的语义表示。本文以大小 的词表示该中心词的语 义表示。用 作为滑动窗口的矩阵参数。 ·462· 智 能 系 统 学 报 第 15 卷
第3期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·463· 其中,P:表示该中心词,D表示选取的上下文的 卷积层的作用在于提取每个词特征信息和词 长度。如图2所示,由此计算每个词表示:的特 的上下文信息。在词注意力之后得到的文本特征 征值权重,可以帮助文本中情感分析的重要程 信息X作为卷积的输人。同时在卷积层中运用 度值更加明显。 多个不同大小的卷积核进行提取文本特征,每个 X= 卷积核取一定的数量。不同之处在于,增加了大 W.∈RLd 小为1的卷积核,用于对每个词进行特征提取。 将卷积层输出的特征图作为最大池化层的输入, 得到篇章的特征表示s: s;CNN(X) (7) 式中i代表篇章中的第几个句子。 图2词注意力层 2.2篇章特征提取 Fig.2 Local attention 篇章分析假设输人句子层次词注意卷积神 X={-D,…,,…,+D} (2) 经网络获取到句子向量s,将向量作为双向GRU ai=h(X"Wan+bau) (3) 神经网络的输入,双向GU的输出串联作为特征 式中:X"表示以:为中心,将上下文的大小设置 表示: 为L;h()代表sigmoid激活函数;用bm代表偏置 项。如图2所示,在词注意力层中运用滑动窗口 h:=Z,方-Bi-GRU(s) (8) 机制,进一步探索词嵌入X的深层特征值,并为 篇章全局注意力通过词注意力卷积神经网 每个词的局部特征X分配权重: 络获取到每个句子的特征表示,经过双向GRU进 a={a1,a2,·,an} (4) 一步编码提取每个句子的信息,将双向GRU的输 式中n表示文章中句子的长度。用a表示句子中 出作为全局注意力层的输入,得到每个句子对篇 词或短语的重要程度值,将词特征与权重相乘, 章表示的贡献,排除掉无用的句子并获取到篇章 更新每个词的特征表示,得到X: 的整体语义信息。具体计算如下: x=aiXi u:tanh (W hi+ba) (9) xERd (5) exp(u;) Xm=,…,,…, 0:= (10) 卷积层传统的情感分析处理自然语言的方 ∑exp(u) 法一般采用1-gram、2-gram和n-gram语言模型提 v=∑ah (11) 取文本的情感特征。Pang等W曾使用该方法进行 情感分析,并取得良好的实验效果。卷积神经网 其中双向GRU的输出经过一个多层感知机,使用 络模型根据上下文大小提取局部特征值,卷积核 tanh非线性激活函数,得到每个编码句子的权重 参数可∈Rd都将以X为中心,在每一次的卷积 值,归一化softmax函数将权重分布在[0,1]之间; 操作中,提取卷积上下文窗口大小作为D的局部 将句子编码为向量h:并与对应权重a:相乘求和 特征,并将其视为n-grams特征提取。 最终得到特征表示v。 本文中,取卷积核大小为3,则文本中心词对 2.3篇章分类 应的上下范围为1,并遵循马尔可夫原则,即卷积 篇章特征向量由提取词和句子特征后得到。 核大小变为5时,中心词对应上下文范围扩大为2。 向量首先通过多层感知机映射到情感类别空间 当卷积核大小取3时,其上下文大小为1,进行卷 C,再使用softmax函数得到情感类别分布Pc。 Pc softmax(Wv+b) (12) 积操作时,无法取到第一个词的上文以及最后一 式中Pc代表篇章在类别C上的预测概率。 个词的下文表示。即首尾两个词导致有h/2创个 实验中将预测的类别分布同真实分布进行对 词无法提取到对应的n-grams特征,将产生文本 比,训练过程中使用交叉熵作为模型的损失函 信息提取不足的问题。为解决此问题,本文采取 数。以P作为真实类别整体概率分布,Pc(d是篇 首尾填充操作,即在卷积层的输入末尾进行大小 为h-1的0向量补全。 章的预测概率分布,损失函数为 X=X⊕…⊕o⊕0 (6) loss = ∑∑P(dn(Pc(d) (13) h-1 式中⊕表示串联操作。 式中D表示训练的样本集
pi D xi αi 其中, 表示该中心词, 表示选取的上下文的 长度。如图 2所示,由此计算每个词表示 的特 征值权重 ,可以帮助文本中情感分析的重要程 度值更加明显。 Watt∈RL×d X={x1 , x2 , …, xn} * D α 图 2 词注意力层 Fig. 2 Local attention X att i = {xi−D,··· , xi ,··· , xi+D} (2) αi = h ( X att i Watt +batt) (3) X att i xi L h(·) batt X 式中: 表示以 为中心,将上下文的大小设置 为 ; 代表 sigmoid 激活函数;用 代表偏置 项。如图 2 所示,在词注意力层中运用滑动窗口 机制,进一步探索词嵌入 的深层特征值,并为 每个词的局部特征 X 分配权重 α: α = {α1,α2,··· ,αn} (4) n Xatt 式中 表示文章中句子的长度。用 α 表示句子中 词或短语的重要程度值,将词特征与权重相乘, 更新每个词的特征表示,得到 : x att i = αixi x att i ∈ R d Xatt = {x att 1 , x att 2 ··· , x att i , x att i+1 ··· , x att n } (5) ϖ ∈ R h×d Xi D 卷积层 传统的情感分析处理自然语言的方 法一般采用 1-gram、2-gram 和 n-gram 语言模型提 取文本的情感特征。Pang 等 [1] 曾使用该方法进行 情感分析,并取得良好的实验效果。卷积神经网 络模型根据上下文大小提取局部特征值,卷积核 参数 都将以 为中心,在每一次的卷积 操作中,提取卷积上下文窗口大小作为 的局部 特征,并将其视为 n-grams特征提取。 ⌊h/2⌋ h−1 本文中,取卷积核大小为 3,则文本中心词对 应的上下范围为 1,并遵循马尔可夫原则,即卷积 核大小变为 5 时,中心词对应上下文范围扩大为 2。 当卷积核大小取 3 时,其上下文大小为 1,进行卷 积操作时,无法取到第一个词的上文以及最后一 个词的下文表示。即首尾两个词导致有 个 词无法提取到对应的 n-grams 特征,将产生文本 信息提取不足的问题。为解决此问题,本文采取 首尾填充操作,即在卷积层的输入末尾进行大小 为 的 0 向量补全。 X = Xatt ⊕··· ⊕ x0 ⊕ x0 | {z } h−1 (6) 式中 ⊕ 表示串联操作。 Xatt si 卷积层的作用在于提取每个词特征信息和词 的上下文信息。在词注意力之后得到的文本特征 信息 作为卷积的输入。同时在卷积层中运用 多个不同大小的卷积核进行提取文本特征,每个 卷积核取一定的数量。不同之处在于,增加了大 小为 1 的卷积核,用于对每个词进行特征提取。 将卷积层输出的特征图作为最大池化层的输入, 得到篇章的特征表示 : si = CNN(Xatt) (7) 式中 i 代表篇章中的第几个句子。 2.2 篇章特征提取 si 篇章分析 假设输入句子层次词注意卷积神 经网络获取到句子向量 ,将向量作为双向 GRU 神经网络的输入,双向 GRU 的输出串联作为特征 表示: hi = [ −→hi , ←−hi ] = Bi−GRU(si) (8) 篇章全局注意力 通过词注意力卷积神经网 络获取到每个句子的特征表示,经过双向 GRU 进 一步编码提取每个句子的信息,将双向 GRU 的输 出作为全局注意力层的输入,得到每个句子对篇 章表示的贡献,排除掉无用的句子并获取到篇章 的整体语义信息。具体计算如下: ui = tanh( Wghi +bg ) (9) αi = ∑ exp(ui) i exp(ui) (10) v = ∑ i αihi (11) tanh softmax hi αi v 其中双向 GRU 的输出经过一个多层感知机,使用 非线性激活函数,得到每个编码句子的权重 值,归一化 函数将权重分布在 [0,1] 之间; 将句子编码为向量 并与对应权重 相乘求和 最终得到特征表示 。 2.3 篇章分类 v C softmax PC 篇章特征向量由提取词和句子特征后得到。 向量 首先通过多层感知机映射到情感类别空间 ,再使用 函数得到情感类别分布 。 PC = softmax(Wcv+bc) (12) 式中 PC 代表篇章在类别 C 上的预测概率。 P g C PC (d) 实验中将预测的类别分布同真实分布进行对 比,训练过程中使用交叉熵作为模型的损失函 数。以 作为真实类别整体概率分布, 是篇 章的预测概率分布,损失函数为 loss = − ∑ d∈D ∑C c=1 P g C (d)ln(PC (d)) (13) 式中 D 表示训练的样本集。 第 3 期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·463·
·464· 智能系统学报 第15卷 3实验数据与实验设置 型实验结果,如表3所示,有SVM(support vector machine)、NN(neural network)等。 3.1数据集 表3情感分析模型的实验结果 为验证本文提出模型的有效性,实验部分在 Table 3 Results of the sentiment analysis of the models 以下3个公开数据集上进行,所用数据集来自于 模型 IMDB YELP 2013 YELP 2014 Chen等的数据集: Majority M①DB:用户在不同商品上的评论数据集。用 19.6 41.1 39.2 于对评论进行情感倾向性分析,每条评论分为 Trigram 39.9 56.9 57.7 10个情感强度 TextFeature 40.2 55.6 57.2 YELP:Yelp比赛2013年和2014年的数据 AvgWordvec 30.4 52.6 53 集,每条评论分为5个强度。 SSWE 31.2 54.9 55.7 数据集详细信息如表1所示。 Paragraph Vector 34.1 55.4 56.4 表1数据集 RNTN+RNN 40 57.4 58.2 Table 1 Datasets NSC 44.3 62.7 63.7 数据集类别文档数文档平均句子数句子平均单词数 NSC+LA 48.7 63.1 63 IMDB 1084919 16.08 24.54 Cnn2Cnn 48.6 YELP2013578966 63.2 62.8 10.89 17.38 Cnn2Rnn 49.4 64.1 64.2 YELP20145231163 11.41 17.26 3.2实验参数与数据处理 对比方法如下: 本数据集使用Keras进行数据预处理,分词 Majority:将训练集中占多数的情感标签视为 任务由Keras提供的tokenizer实现。将数据集划 测试集的情感标签。 分为训练、验证和测试集,划分比例分别为8:1:1。 Trigram:以一元词、二元词和三元词为特征 实验时对词向量进行降维处理,训练词向量维度 训练SVM分类器B。 为200维。卷积神经网络参数设置如表2所示。 TextFeature:提取文本的词特征、字符特征和 本文设置上下文范围大小D=2,滑动窗口数量为 词性特征训练SVM分类器。 1,GRU的输出维度设为100,双向得到向量为 AvgWordvec:将文档的词向量平均化得到文 200维,全连接层隐藏单元200个。 档表示,以此训练SVM分类器。 表2卷积层参数设置 S$WE:使用特别训练的情感词向量生成特 Table 2 Hyperparameter of CNN 征,SVM为分类器 参数 属性 NSC:双层LSTM分别获取词特征和句子特 激活函数 Recified linear Units 征,构建篇章表示四。 滑动窗口大小 1,3,4,5 NSC+LA:双层LSTM结合全局注意力机制 滑动窗口数量 100 提取篇章的特征表示 RNTN+RNN:使用递归神经网络提取句子 Dropout 0.5 的特征表示,并用循环神经网络得到篇章的特 Minibatch 64 征表示。 池化 最大池化 Paragraph Vector::PVDM模型用于情感分类。 实验模型指定batch size大小为32,同时对 Cnn2Cnn:词特征提取和句子特征提取都使 词向量进行动态微处理。本文使用Adadelta算法 用词注意卷积神经网络。 对模型参数进行了优化调整。为了提升实验效果 Cnn2Rnn:词特征提取使用词注意卷积神经 和模型准确率,训练过程中将含有句子数相近的 网络,句子特征提取使用GRU和全局注意力。 篇章形成一个batch,用以加速训练过程。最后, 3.4实验结果与分析 模型使用准确率作为评判标准。 本文的实验结果如表3所示,在3个数据集 3.3对比方法 上分别得到模型的准确率,将模型的对比实验分 为了测定模型效果,本实验对比了不同的模 为3组:第1组以传统特征提取结合分类器进行
3 实验数据与实验设置 3.1 数据集 为验证本文提出模型的有效性,实验部分在 以下 3 个公开数据集上进行,所用数据集来自于 Chen 等 [32] 的数据集: IMDB:用户在不同商品上的评论数据集。用 于对评论进行情感倾向性分析,每条评论分为 10 个情感强度。 YELP:Yelp 比赛 2013 年和 2014 年的数据 集,每条评论分为 5 个强度。 数据集详细信息如表 1 所示。 表 1 数据集 Table 1 Datasets 数据集 类别 文档数 文档平均句子数 句子平均单词数 IMDB 10 84 919 16.08 24.54 YELP 2013 5 78 966 10.89 17.38 YELP 2014 5 231 163 11.41 17.26 3.2 实验参数与数据处理 本数据集使用 Keras 进行数据预处理,分词 任务由 Keras 提供的 tokenizer 实现。将数据集划 分为训练、验证和测试集,划分比例分别为 8∶1∶1。 实验时对词向量进行降维处理,训练词向量维度 为 200 维。卷积神经网络参数设置如表 2 所示。 本文设置上下文范围大小 D=2,滑动窗口数量为 1,GRU 的输出维度设为 100,双向得到向量为 200 维,全连接层隐藏单元 200 个。 表 2 卷积层参数设置 Table 2 Hyperparameter of CNN 参数 属性 激活函数 Recified linear Units 滑动窗口大小 1,3,4,5 滑动窗口数量 100 Dropout 0.5 Minibatch 64 池化 最大池化 实验模型指定 batch_size 大小为 32,同时对 词向量进行动态微处理。本文使用 Adadelta 算法 对模型参数进行了优化调整。为了提升实验效果 和模型准确率,训练过程中将含有句子数相近的 篇章形成一个 batch,用以加速训练过程。最后, 模型使用准确率作为评判标准。 3.3 对比方法 为了测定模型效果,本实验对比了不同的模 型实验结果,如表 3 所示,有 SVM(support vector machine)、NN(neural network) 等。 表 3 情感分析模型的实验结果 Table 3 Results of the sentiment analysis of the models 模型 IMDB YELP 2013 YELP 2014 Majority 19.6 41.1 39.2 Trigram 39.9 56.9 57.7 TextFeature 40.2 55.6 57.2 AvgWordvec 30.4 52.6 53 SSWE 31.2 54.9 55.7 Paragraph Vector 34.1 55.4 56.4 RNTN+RNN 40 57.4 58.2 NSC 44.3 62.7 63.7 NSC+LA 48.7 63.1 63 Cnn2Cnn 48.6 63.2 62.8 Cnn2Rnn 49.4 64.1 64.2 对比方法如下: Majority:将训练集中占多数的情感标签视为 测试集的情感标签。 Trigram:以一元词、二元词和三元词为特征 训练 SVM 分类器[33]。 TextFeature:提取文本的词特征、字符特征和 词性特征训练 SVM 分类器。 AvgWordvec:将文档的词向量平均化得到文 档表示,以此训练 SVM 分类器。 SSWE:使用特别训练的情感词向量生成特 征,SVM 为分类器。 NSC:双层 LSTM 分别获取词特征和句子特 征,构建篇章表示[32]。 NSC+LA:双层 LSTM 结合全局注意力机制 提取篇章的特征表示[14]。 RNTN+RNN:使用递归神经网络提取句子 的特征表示,并用循环神经网络得到篇章的特 征表示。 Paragraph Vector:PVDM[34] 模型用于情感分类。 Cnn2Cnn:词特征提取和句子特征提取都使 用词注意卷积神经网络。 Cnn2Rnn:词特征提取使用词注意卷积神经 网络,句子特征提取使用 GRU 和全局注意力。 3.4 实验结果与分析 本文的实验结果如表 3 所示,在 3 个数据集 上分别得到模型的准确率,将模型的对比实验分 为 3 组:第 1 组以传统特征提取结合分类器进行 ·464· 智 能 系 统 学 报 第 15 卷