第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0L:10.11992tis.202012024 基于双特征嵌套注意力的方面词情感分析算法 肖宇晗,林慧苹,汪权彬2,谭营 (1.北京大学软件与微电子学院,北京102600:2.北京大学信息科学技术学院,北京100871) 摘要:针对目前方面词情感分析方法忽视了以方面词为核心的局部特征的重要性,并难以有效减小情感干扰 项的负面噪声的问题,本文提出了一种带有基于变换器的双向编码器表示技术(bi-directional encoder representa- tions from transformers,.BERT)加持的双特征嵌套注意力模型(dual features attention-over-attention with BERT】 DFAOA-BERT),首次将AOA(attention-over-attention)与BERT预训练模型结合,并设计了全局与局部特征提取 器,能够充分捕捉方面词和语境的有效语义关联。实验结果表明:DFAOA-BERT在SemEval2014任务4中的 餐馆评论、笔记本评论和ACL-l4 Twitter社交评论这3个公开数据集上均表现优异,而子模块的有效性实验, 也充分证明了DFAOA-BERT各个部分的设计合理性。 关键词:情感分析;方面词;嵌套注意力;BERT预训练模型;全局特征;局部特征;深度学习;机器学习 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)01-0142-10 中文引用格式:肖宇哈,林慧苹,汪权彬,等.基于双特征嵌套注意力的方面词情感分析算法.智能系统学报,2021,16(1): 142-151. 英文引用格式:XIAO Yuhan,,LIN Huiping,WANG Quanbin,,et al An algorithm for aspect-.based sentiment analysis based on dual features attention-over-attentionJl.CAAI transactions on intelligent systems,2021,16(1):142-151. An algorithm for aspect-based sentiment analysis based on dual features attention-over-attention XIAO Yuhan',LIN Huiping',WANG Quanbin',TAN Ying (1.School of Software and Microelectronics,Peking University,Beijing 102600,China;2.School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China) Abstract:Aspect-based sentiment analysis is of great significance to making full use of product reviews to analyze po- tential user needs.The current research work still has deficiencies.Many studies ignore the importance of local features centered on aspects and fail to handle emotional disturbances effectively.To address these problems,this article pro- poses a dual features attention-over-attention model with BERT(DFAOA-BERT).For the first time,an AOA(attention- over-attention)mechanism is combined with the BERT pretrained model.DFAOA-BERT also designs global and local feature extractors to fully capture an effective semantic association between aspects and context.According to the exper- imental results,DFAOA-BERT performs well on three public datasets:restaurant and laptop review datasets from Se- mEval 2014 Task 4 and the ACL-14 Twitter social review dataset.The effectiveness experiment of submodules also fully proves that each part of DFAOA-BERT makes a significant contribution to the excellent performance. Keywords:sentiment analysis;aspect;attention-over-attention;BERT pretrained model;global feature;local feature; deep learning;machine learning 随着互联网的迅速发展,人们越来越倾向于在网络上发表自己对商品或服务的看法。提取评 论所蕴含的情感态度与需求,有利于商家深入分 收稿日期:2020-12-15. 基金项目:国家重点研发计划项目(2018AAA0102301 析用户的潜在需求,判断市场走向,改进产品或 2018AAA0100302,2018YFB1702900):国家自然科学 基金项目(62076010). 服务设计。 通信作者:谭营.E-mail:ytan@pku.edu.cn. 值得注意的是,人们在进行评论时,一般不会
DOI: 10.11992/tis.202012024 基于双特征嵌套注意力的方面词情感分析算法 肖宇晗1 ,林慧苹1 ,汪权彬2 ,谭营2 (1. 北京大学 软件与微电子学院,北京 102600; 2. 北京大学 信息科学技术学院,北京 100871) 摘 要:针对目前方面词情感分析方法忽视了以方面词为核心的局部特征的重要性,并难以有效减小情感干扰 项的负面噪声的问题,本文提出了一种带有基于变换器的双向编码器表示技术(bi-directional encoder representations from transformers,BERT)加持的双特征嵌套注意力模型 (dual features attention-over-attention with BERT, DFAOA-BERT),首次将 AOA(attention-over-attention) 与 BERT 预训练模型结合,并设计了全局与局部特征提取 器,能够充分捕捉方面词和语境的有效语义关联。实验结果表明:DFAOA-BERT 在 SemEval 2014 任务 4 中的 餐馆评论、笔记本评论和 ACL-14 Twitter 社交评论这 3 个公开数据集上均表现优异,而子模块的有效性实验, 也充分证明了 DFAOA-BERT 各个部分的设计合理性。 关键词:情感分析;方面词;嵌套注意力;BERT 预训练模型;全局特征;局部特征;深度学习;机器学习 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)01−0142−10 中文引用格式:肖宇晗, 林慧苹, 汪权彬, 等. 基于双特征嵌套注意力的方面词情感分析算法 [J]. 智能系统学报, 2021, 16(1): 142–151. 英文引用格式:XIAO Yuhan, LIN Huiping, WANG Quanbin, et al. An algorithm for aspect-based sentiment analysis based on dual features attention-over-attention[J]. CAAI transactions on intelligent systems, 2021, 16(1): 142–151. An algorithm for aspect-based sentiment analysis based on dual features attention-over-attention XIAO Yuhan1 ,LIN Huiping1 ,WANG Quanbin2 ,TAN Ying2 (1. School of Software and Microelectronics, Peking University, Beijing 102600, China; 2. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China) Abstract: Aspect-based sentiment analysis is of great significance to making full use of product reviews to analyze potential user needs. The current research work still has deficiencies. Many studies ignore the importance of local features centered on aspects and fail to handle emotional disturbances effectively. To address these problems, this article proposes a dual features attention-over-attention model with BERT (DFAOA-BERT). For the first time, an AOA (attentionover-attention) mechanism is combined with the BERT pretrained model. DFAOA-BERT also designs global and local feature extractors to fully capture an effective semantic association between aspects and context. According to the experimental results, DFAOA-BERT performs well on three public datasets: restaurant and laptop review datasets from SemEval 2014 Task 4 and the ACL-14 Twitter social review dataset. The effectiveness experiment of submodules also fully proves that each part of DFAOA-BERT makes a significant contribution to the excellent performance. Keywords: sentiment analysis; aspect; attention-over-attention; BERT pretrained model; global feature; local feature; deep learning; machine learning 随着互联网的迅速发展,人们越来越倾向于 在网络上发表自己对商品或服务的看法。提取评 论所蕴含的情感态度与需求,有利于商家深入分 析用户的潜在需求,判断市场走向,改进产品或 服务设计。 值得注意的是,人们在进行评论时,一般不会 收稿日期:2020−12−15. 基金项目:国家重点研发计划项 目 (2018AAA0102301, 2018AAA0100302, 2018YFB1702900);国家自然科学 基金项目 (62076010). 通信作者:谭营. E-mail:ytan@pku.edu.cn. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·143· 发表长篇大论,而是倾向于用一两句话概括某个 句话对应的隐藏层状态来获取语境对方面词的注 事物的某个方面的好坏,甚至会在同一句话中对 意力权重,从而使得IAN能够重点考虑语境中的 多个方面表达不同的情感态度。因此,方面词情 情感有效项信息。针对训练数据不足的问题, 感分析任务的研究近年来颇受关注。该任务的要 Xu等I提出了半监督序列生成模型(target--ori- 求是,在给定文本以及方面词的情况下,分别对 ented semi-supervised sequential generative model, 这些方面词所承载的情感态度进行分类。例 TSSGM),在减小对训练数据的依赖性的同时能 如,给定“这家店的环境不错,服务周到,但食材 够提升情感分类器的判断精度。 不新鲜”这段文本,并给出“环境”、“服务”、“食 在最近2年里,通过预训练语言模型来增强 材”这3个方面词,算法应当判断出用户对“环境” 模型的语义表示能力成为方面词情感分析任务的 和“服务”的情感态度是正向,而对“食材”持负面 研究热点。取自语言模型的词嵌入I(embeddings 态度。考虑到方面词往往蕴含了用户对产品或服 from language models,ELMo),以及基于trans-. 务的需求,方面词情感分析算法的研究将对细粒 former9的生成式预训练ol(generative pre-.training, 度分析用户潜在需求有着重要意义。 GPT),均是其中的优秀代表。而BERT(bi-direc 与文档级和句子级情感分析任务相比,方面 tional encoder representations from transformers) 词情感分析任务粒度更细、更具挑战。其中一个 提出,则更是里程碑式地刷新了多达11项自然语 棘手的问题是,如何在保留情感有效项信息的同 言处理任务的最高成绩。Karimi等2l在实验中 时,尽可能减小干扰项对情感判断的负面影响。 使用基础BERT模型来完成处理方面词情感分析 例如,“我买过这家的鼠标、电脑和平板,鼠标很 任务,发现其效果已经超过绝大多数普通神经网 快就没用了,至于这个电脑,不好也不坏,平板倒 络模型。Song等I1探索了BERT在方面词情感 是挺结实”,如果要求对方面词电脑”进行情感分 分析任务中的优势,分别提出了用于句对分类的 析,答案理论上应是中立,但一些算法很容易将 BERT(BERT model for sentence pair classifica- 其误判为正向或负向,原因就在于未能有效减小 tion,BERT-SPC)与带有BERT的注意力编码网 “鼠标很快就没用了”和“平板倒是挺结实”对情感 (attentional encoder network with BERT,AEN- 分析的干忧作用。除此以外,语言的丰富性与灵 BERT),在多个数据集上都取得了前沿性的结果。 活性也显著提高了方面词情感分析任务的难度。 尽管现有的模型在方面词情感分析任务上有 一些习语以及复杂句式也会对情感分析的结果产 着不俗的表现,但仍在2个方面存在不足。一方 生不利影响。例如,“I have never had a bad 面,在很多研究工作中,方面词的重要性未能得 meal”,就方面词“meal”而言,情感态度是正向 到充分的重视。Jiang等在Twitter数据集上评 的,但部分模型会根据设计的规则或以往的训练 估了一个情感分类器的效果,结果发现40%的分 经验,因“bad”的存在而给出错误的分类结果。 类错误都缘于没有考虑方面词的指示作用。这说 目前,处理方面词情感分析任务的主流方式 明,如何充分使用方面词提供的位置特征和语义 是通过深度学习方法来赋予模型细粒度的情感分 特征将是影响模型效果的重要因素。另一方面, 析能力。为了避免在神经网络层数较多时出现梯 方面词的情感倾向往往与邻近的形容词、动词等 度消失问题,长短时记忆网络(long short-term 主观性词语关联更大,位置较远的词语很有可能 memory,LSTM成为大多数深度学习模型的基本 成为干扰项。有些算法虽然已经考虑到方面词的 网络结构选择。Tang等在此基础上提出了基 重要价值,但却没有真正把握好如何利用方面词 于目标的长短时记忆网络模型(target dependent 和语境之间的联系,往往只是提取方面词特征和 long short--term memory model,.TD-LSTM),分别通 整个评论的全局语义特征来进行运算,未能有效 过2个独立的双向长短时记忆网络来提取方面词 地消除干扰项的不利影响。 左边语境和右边语境的语义特征,获得了比基础 针对上述不足,本文首次将阅读理解领域提 长短时记忆网络更好的实验结果。而注意力机制 出的AOA(attention-over-attention)与BERT预训练 的引入,则使得深度学习模型能够更好地利用有 模型相结合,提出了含BERT加持的双特征嵌套 效项的语义特征,并弱化情感干扰项的负面影 注意力模型(dual features attention-over-attention 响。Ma等在互动注意力网络模型(interactive with BERT,DFAOA-BERT),借助BERT来获取 attention networks,.IAN)中首次提出了语境特征和 优质的词向量和语义编码,在此基础上计算 方面词特征之间的互动式学习,他们通过池化整 AOA数值,并提取关键语义特征。此外,DFAOA
发表长篇大论,而是倾向于用一两句话概括某个 事物的某个方面的好坏,甚至会在同一句话中对 多个方面表达不同的情感态度。因此,方面词情 感分析任务的研究近年来颇受关注。该任务的要 求是,在给定文本以及方面词的情况下,分别对 这些方面词所承载的情感态度进行分类[1-2]。例 如,给定“这家店的环境不错,服务周到,但食材 不新鲜”这段文本,并给出“环境”、“服务”、“食 材”这 3 个方面词,算法应当判断出用户对“环境” 和“服务”的情感态度是正向,而对“食材”持负面 态度。考虑到方面词往往蕴含了用户对产品或服 务的需求,方面词情感分析算法的研究将对细粒 度分析用户潜在需求有着重要意义。 与文档级和句子级情感分析任务相比,方面 词情感分析任务粒度更细、更具挑战。其中一个 棘手的问题是,如何在保留情感有效项信息的同 时,尽可能减小干扰项对情感判断的负面影响。 例如,“我买过这家的鼠标、电脑和平板,鼠标很 快就没用了,至于这个电脑,不好也不坏,平板倒 是挺结实”,如果要求对方面词“电脑”进行情感分 析,答案理论上应是中立,但一些算法很容易将 其误判为正向或负向,原因就在于未能有效减小 “鼠标很快就没用了”和“平板倒是挺结实”对情感 分析的干扰作用。除此以外,语言的丰富性与灵 活性也显著提高了方面词情感分析任务的难度。 一些习语以及复杂句式也会对情感分析的结果产 生不利影响。例如,“I have never had a bad meal”,就方面词“meal”而言,情感态度是正向 的,但部分模型会根据设计的规则或以往的训练 经验,因“bad”的存在而给出错误的分类结果[3]。 目前,处理方面词情感分析任务的主流方式 是通过深度学习方法来赋予模型细粒度的情感分 析能力。为了避免在神经网络层数较多时出现梯 度消失问题,长短时记忆网络[4] (long short-term memory, LSTM) 成为大多数深度学习模型的基本 网络结构选择。Tang 等 [5] 在此基础上提出了基 于目标的长短时记忆网络模型 (target dependent long short-term memory model, TD-LSTM),分别通 过 2 个独立的双向长短时记忆网络来提取方面词 左边语境和右边语境的语义特征,获得了比基础 长短时记忆网络更好的实验结果。而注意力机制 的引入,则使得深度学习模型能够更好地利用有 效项的语义特征,并弱化情感干扰项的负面影 响。Ma 等 [6] 在互动注意力网络模型 (interactive attention networks, IAN) 中首次提出了语境特征和 方面词特征之间的互动式学习,他们通过池化整 句话对应的隐藏层状态来获取语境对方面词的注 意力权重,从而使得 IAN 能够重点考虑语境中的 情感有效项信息。针对训练数据不足的问题, Xu 等 [7] 提出了半监督序列生成模型 (target-oriented semi-supervised sequential generative model, TSSGM),在减小对训练数据的依赖性的同时能 够提升情感分类器的判断精度。 在最近 2 年里,通过预训练语言模型来增强 模型的语义表示能力成为方面词情感分析任务的 研究热点。取自语言模型的词嵌入[8] (embeddings from language models, ELMo),以及基于 transformer[9] 的生成式预训练[10] (generative pre-training, GPT),均是其中的优秀代表。而 BERT[11] (bi-directional encoder representations from transformers) 的 提出,则更是里程碑式地刷新了多达 11 项自然语 言处理任务的最高成绩。Karimi 等 [12] 在实验中 使用基础 BERT 模型来完成处理方面词情感分析 任务,发现其效果已经超过绝大多数普通神经网 络模型。Song 等 [13] 探索了 BERT 在方面词情感 分析任务中的优势,分别提出了用于句对分类的 BERT 模型 (BERT model for sentence pair classification,BERT-SPC) 与带有 BERT 的注意力编码网 络 (attentional encoder network with BERT,AENBERT),在多个数据集上都取得了前沿性的结果。 尽管现有的模型在方面词情感分析任务上有 着不俗的表现,但仍在 2 个方面存在不足。一方 面,在很多研究工作中,方面词的重要性未能得 到充分的重视。Jiang 等 [14] 在 Twitter 数据集上评 估了一个情感分类器的效果,结果发现 40% 的分 类错误都缘于没有考虑方面词的指示作用。这说 明,如何充分使用方面词提供的位置特征和语义 特征将是影响模型效果的重要因素。另一方面, 方面词的情感倾向往往与邻近的形容词、动词等 主观性词语关联更大,位置较远的词语很有可能 成为干扰项。有些算法虽然已经考虑到方面词的 重要价值,但却没有真正把握好如何利用方面词 和语境之间的联系,往往只是提取方面词特征和 整个评论的全局语义特征来进行运算,未能有效 地消除干扰项的不利影响。 针对上述不足,本文首次将阅读理解领域提 出的 AOA(attention-over-attention) 与 BERT 预训练 模型相结合,提出了含 BERT 加持的双特征嵌套 注意力模型 (dual features attention-over-attention with BERT,DFAOA-BERT),借助 BERT 来获取 优质的词向量和语义编码,在此基础上计 算 AOA 数值,并提取关键语义特征。此外,DFAOA- 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·143·
·144- 智能系统学报 第16卷 BERT还分别设计了全局和局部特征提取器,使 y=aBT (5) 得模型既能获得全面的语义信息,还能有效减小 情感干扰项的负面作用。实验证明,DFAOA 2本文模型 BERT在3个公开数据集上均取得了优异的成 给定包含方面词的语境序列W={w,W2,…, 绩,而在主实验基础上进行的子模块有效性实 wn}和方面词序列W={w,wW,…,Wn},DFAOA- 验,也充分证明了模型主要组成部分的设计合 BERT模型将输出方面词对应的情感分类结果, 理性。 且分类结果是负面、中立、正面中的一个。整体 1AOA注意力机制 模型结构如图1所示。宏观上可以分为4个部 分:输入层、局部特征提取器、全局特征提取器以 AOA机制由Cui等1提出,用于处理阅读理 及分类层。而局部特征提取器和全局特征提取器 解领域中的完形填空问题。它将完形填空任务转 可以细分为3个子模块:词嵌人层、编码层、注意 换为问答任务,把每个填空的候选项看作对文档 力机制。这2个提取器的设计要点都是以 的查询(query),并设计了一套算法,计算查询对 AOA为核心的注意力机制部分,最大的不同在于 文档的注意力数值以及文档对查询的注意力数 局部特征提取器中额外添加了语境动态加权模 值,将计算获得的双向注意力结果视为最终语义 块,词嵌入层和编码层的计算方式则基本相同。 匹配特征,在此基础上为每个候选项进行打分和 模型的介绍将围绕输入层、词嵌入层、编码 排序。 层、注意力机制模块以及分类层这5个部分展开。 Huang等)则对阅读理解领域的AOA进行 2.1输入层 了调整,将其应用到方面词情感分析任务中。方 对于局部特征提取器而言,输人序列就是包 面词被视为查询,方面词邻近的语境被看作是待 含方面词的语境序列以及方面词序列本身。全局 查询的文档,通过计算方面词和语境之间的双向 特征提取器的输入序列则有所不同,其语境序列 注意力数值来获得语义匹配特征,最终将产生的 需要经过特殊处理。受BERT-SPC模型)启发, 结果输入到情感分类层中。实验结果表明, 为了充分发挥BERT在本任务中的作用,全局特 AOA在方面词情感分析任务中有着优秀的表现, 征提取器将原语境序列处理成“[CLS]+原语境 能够帮助深度学习模型更为充分地利用方面词本 序列+[SEP]+方面词序列+[SEP]”的形式。其 身提供的信息以及它和语境之间的语义关联。 中,“[CLS]”和“[SEP]”是BERT使用的2种标记 设AOA的输入为方面词的语义编码h。和语 符号,前者是特殊分类向量标记符,聚集了分类 境的语义编码hc,其中,h。∈Rm,he∈R,m是方 相关的信息,后者是分隔符,在输入多个序列时 面词序列的长度(单词数),n是语境序列的长度, 用于分隔不同序列。将原语境序列处理成这种特 d是语义编码的维数。计算AOA数值的第1步 殊形式其实是将原格式转化成了BERT在处理文 是获取两者的语义联系矩阵M: 本分类任务时所要求的输入格式,从而充分发挥 M=hcht (1) 式中M∈Rm,M中第i行j列的元素表示语境序 BERT的效果。对于方面词序列,全局特征提取 列中第i个词和方面词序列中第j个词的语义匹 器与局部特征提取器的处理方式相同。 配分数。 2.2词嵌入层 接着,对M的列进行softmax操作,获得方面 DFAOA-BERT模型在该部分将单词一一映 词对语境的注意力数值a;对M的行进行softmax 射到低维向量空间中,映射方式选用BERT词嵌 入。与GloVe I6不同的是,BERT提供的是一个 操作,获得语境对方面词的注意力数值B。 exp(Mi 语义理解模型,而GloVe提供的只是一个词嵌入 ∑epM (2) 矩阵。 设GloVe提供的矩阵为M,则M∈RM,其 exp(Mi β= (3) 中,d。是词嵌入的维数,Ⅵ表示单词的总数,通过 ∑,exp(M) 矩阵M,可将任意单词w:映射成维数为d。的向 对B按列计算平均值获得B∈Rm,最后的 量。而BERT词嵌人层则是一个基于序列到序列 AOA注意力数值y∈R"则由a与B点乘得到: 技术的预训练语义理解模型,其参数并不是像 B)=- (4) GloVe这样固定不变的。因此,使用一个 BERT词嵌入层来获取局部特征提取器输入序列
BERT 还分别设计了全局和局部特征提取器,使 得模型既能获得全面的语义信息,还能有效减小 情感干扰项的负面作用。实验证明,DFAOABERT 在 3 个公开数据集上均取得了优异的成 绩,而在主实验基础上进行的子模块有效性实 验,也充分证明了模型主要组成部分的设计合 理性。 1 AOA 注意力机制 AOA 机制由 Cui 等 [15] 提出,用于处理阅读理 解领域中的完形填空问题。它将完形填空任务转 换为问答任务,把每个填空的候选项看作对文档 的查询 (query),并设计了一套算法,计算查询对 文档的注意力数值以及文档对查询的注意力数 值,将计算获得的双向注意力结果视为最终语义 匹配特征,在此基础上为每个候选项进行打分和 排序。 Huang 等 [3] 则对阅读理解领域的 AOA 进行 了调整,将其应用到方面词情感分析任务中。方 面词被视为查询,方面词邻近的语境被看作是待 查询的文档,通过计算方面词和语境之间的双向 注意力数值来获得语义匹配特征,最终将产生的 结果输入到情感分类层中。实验结果表明, AOA 在方面词情感分析任务中有着优秀的表现, 能够帮助深度学习模型更为充分地利用方面词本 身提供的信息以及它和语境之间的语义关联。 ha hc ha ∈ R md hc ∈ R nd m n d M 设 AOA 的输入为方面词的语义编码 和语 境的语义编码 ,其中, , , 是方 面词序列的长度 (单词数), 是语境序列的长度, 是语义编码的维数。计算 AOA 数值的第 1 步 是获取两者的语义联系矩阵 : M = hch T a (1) M ∈ R nm M i j i j 式中 , 中第 行 列的元素表示语境序 列中第 个词和方面词序列中第 个词的语义匹 配分数。 M softmax α M softmax β 接着,对 的列进行 操作,获得方面 词对语境的注意力数值 ;对 的行进行 操作,获得语境对方面词的注意力数值 。 αi j = exp( Mi j) ∑ i exp (Mi j) (2) βi j = exp( Mi j) ∑ j exp( Mi j) (3) β β¯ ∈ R m γ ∈ R n α β¯ 对 按列计算平均值获得 ,最后的 AOA 注意力数值 则由 与 点乘得到: β¯ j = 1 n ∑ i βi j (4) γ = αβ¯T (5) 2 本文模型 W = {w1,w2,··· , wn} Wt = {w t 1 ,w t 2 ,··· ,w t m } 给定包含方面词的语境序列 和方面词序列 , DFAOABERT 模型将输出方面词对应的情感分类结果, 且分类结果是负面、中立、正面中的一个。整体 模型结构如图 1 所示。宏观上可以分为 4 个部 分:输入层、局部特征提取器、全局特征提取器以 及分类层。而局部特征提取器和全局特征提取器 可以细分为 3 个子模块:词嵌入层、编码层、注意 力机制。 这 2 个提取器的设计要点都是 以 AOA 为核心的注意力机制部分,最大的不同在于 局部特征提取器中额外添加了语境动态加权模 块,词嵌入层和编码层的计算方式则基本相同。 模型的介绍将围绕输入层、词嵌入层、编码 层、注意力机制模块以及分类层这 5 个部分展开。 2.1 输入层 对于局部特征提取器而言,输入序列就是包 含方面词的语境序列以及方面词序列本身。全局 特征提取器的输入序列则有所不同,其语境序列 需要经过特殊处理。受 BERT-SPC 模型[13] 启发, 为了充分发挥 BERT 在本任务中的作用,全局特 征提取器将原语境序列处理成“[CLS] + 原语境 序列 + [SEP] + 方面词序列 + [SEP]”的形式。其 中,“[CLS]”和“[SEP]”是 BERT 使用的 2 种标记 符号,前者是特殊分类向量标记符,聚集了分类 相关的信息,后者是分隔符,在输入多个序列时 用于分隔不同序列。将原语境序列处理成这种特 殊形式其实是将原格式转化成了 BERT 在处理文 本分类任务时所要求的输入格式,从而充分发挥 BERT 的效果。对于方面词序列,全局特征提取 器与局部特征提取器的处理方式相同。 2.2 词嵌入层 DFAOA-BERT 模型在该部分将单词一一映 射到低维向量空间中,映射方式选用 BERT 词嵌 入。与 GloVe [16] 不同的是,BERT 提供的是一个 语义理解模型,而 GloVe 提供的只是一个词嵌入 矩阵。 M M ∈ R de×|V| de |V| M wi de 设 GloVe 提供的矩阵为 ,则 ,其 中, 是词嵌入的维数, 表示单词的总数,通过 矩阵 ,可将任意单词 映射成维数为 的向 量。而 BERT 词嵌入层则是一个基于序列到序列 技术[4] 的预训练语义理解模型,其参数并不是像 GloV e 这样固定不变的。因此,使用一 个 BERT 词嵌入层来获取局部特征提取器输入序列 ·144· 智 能 系 统 学 报 第 16 卷
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·145· 与全局特征提取器序列的词嵌入,和使用2个互 同。本模型中采用2个独立的BERT词嵌入层, 相独立的BERT词嵌入层所产生的结果不完全相 原因在于该选择会小幅度提升算法的训练效果。 情感分类结果 线性分类网络 分类层 局部语义特征 全局语义特征 嵌套注意力机制 : (AOA) 嵌套注意力机制 注意力机制 (AOA) 语境动态加权模块 MHSA编码器 MHSA编码器 编码层 888 词嵌入层 局部特征提取器 全局特征提取器 局部特征提取器输入序列 全局特征提取器输入序列 输人层 图1 DFAOA-BERT模型结构 Fig.1 Structure of DFAOA-BERT model 2.3编码层 Q=XW四 (6) 本层的任务是将输入序列对应的词嵌入编 K=X.W (7) V=X.W 码成含有丰富语义信息的向量。词嵌入本身包 (8) 含的信息较为基础,基于循环神经网络的模型一 SDA(X)=Softmax QKT (9) 般使用长短时记忆网络来对词嵌入进行编码, 式中:W9、W、W均为权重矩阵;W9∈R4×d,; DFAOA-BERT则使用MHSA(multi-head self-at- W*∈R4×d:;WeR4×d。这3个矩阵中的权重属 tention)提取语义特征。MHSA的主要思想是通 过多个注意力函数来对每个单词计算注意力数 于模型的可训练参数。dg、d、d,是矩阵维度,三 值,将这多个注意力数值拼接在一起后进行激活 者的值都为d/h,其中,d是隐藏层维数,h是多 函数运算,其结果即为输人序列的语义表示。 头自注意力机制中的头数。根据每个注意力头 MHSA中的自注意力机制函数可以选用不同的 的SDA计算结果,可得到整个MHSA的输出O: 设计,DFAOA-BERT使用的是SDA(scaled dot SDA=SDAo⊕SDA1⊕·⊕SDAh-1 (10) product attention),相较于其他自注意力机制而 O-Tanh(SDAWMHSA) (11) 言,其优点在于既可以保证编码效果,又能够有 式中:⊕表示向量的拼接操作;WMsA是一个向量 效提高计算的效率。 矩阵;WMHSA E Rhd,×da:Tanh为激活函数。 令词嵌入层的输出为X,SDA的计算方式为 通过以上步骤,MHSA将基础的词嵌入编码
与全局特征提取器序列的词嵌入,和使用 2 个互 相独立的 BERT 词嵌入层所产生的结果不完全相 同。本模型中采用 2 个独立的 BERT 词嵌入层, 原因在于该选择会小幅度提升算法的训练效果。 情感分类结果 线性分类网络 嵌套注意力机制 (AOA) 嵌套注意力机制 (AOA) 语境动态加权模块 MHSA 编码器 MHSA 编码器 ... e1 L 局部特征提取器 全局特征提取器 局部特征提取器输入序列 全局特征提取器输入序列 输入层 词嵌入层 编码层 注意力机制 L e2 L en ... e1 G Ge2 G en 分类层 全局语义特征 局部语义特征 图 1 DFAOA-BERT 模型结构 Fig. 1 Structure of DFAOA-BERT model 2.3 编码层 本层的任务是将输入序列对应的词嵌入编 码成含有丰富语义信息的向量。词嵌入本身包 含的信息较为基础,基于循环神经网络的模型一 般使用长短时记忆网络来对词嵌入进行编码, DFAOA-BERT 则使用 MHSA[9] (multi-head self-attention) 提取语义特征。MHSA 的主要思想是通 过多个注意力函数来对每个单词计算注意力数 值,将这多个注意力数值拼接在一起后进行激活 函数运算,其结果即为输入序列的语义表示。 MHSA 中的自注意力机制函数可以选用不同的 设计,DFAOA-BERT 使用的是 SDA(scaled dot product attention),相较于其他自注意力机制而 言,其优点在于既可以保证编码效果,又能够有 效提高计算的效率。 令词嵌入层的输出为 Xe,SDA 的计算方式为 Q = XeWq (6) K = XeWk (7) V = XeWv (8) SDA(Xe) = Softmax( QKT √ dk ) V (9) Wq Wk Wv Wq ∈ R dh ×dq Wk ∈ R dh ×dk Wv ∈ R dh ×dv dq dk dv dh/h dh h O e 式中: 、 、 均为权重矩阵; ; ; 。这 3 个矩阵中的权重属 于模型的可训练参数。 、 、 是矩阵维度,三 者的值都为 ,其中, 是隐藏层维数, 是多 头自注意力机制中的头数。根据每个注意力头 的 SDA 计算结果,可得到整个 MHSA 的输出 : SDA = SDA0 ⊕SDA1 ⊕ ··· ⊕SDAh−1 (10) O e = Tanh( SDAWMHSA) (11) ⊕ WMHSA WMHSA ∈ R hdv ×dh Tanh 式中: 表示向量的拼接操作; 是一个向量 矩阵; ; 为激活函数。 通过以上步骤,MHSA 将基础的词嵌入编码 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·145·
·146· 智能系统学报 第16卷 为包含丰富信息的语义向量表示。为方便下文阐 short-term memory,Bi-LSTM)压缩维数、提取语义 释,记语境序列对应的语义编码为0,方面词序 信息。令he和h.分别为Bi-LSTM最后输出的语 列对应的语义编码为0:。 境隐藏状态和方面词隐藏状态,其计算方法为 2.4注意力机制 h=LSTM (O") DFAOA-BERT模型的注意力机制设计以 he=LSTM (O") (15) AOA为核心,相对于全局特征提取器而言,局部 he=五,ha 特征提取器额外设计了语境动态加权模块来增强 其获取局部关键信息的能力。 h=LSTM(O:) 1)语境动态加权模块。 h=LSTM (O) (16) 语境动态加权模块的设计思想在于,一个方 h ha,ha 面词的情感态度往往只与邻近的词有关,远距离 式中:he∈R2;haERmx2a;da是Bi-LSTM的隐藏 的词反而可能提供噪声信息而干扰模型的判断。 状态维数。 因此,从本质上讲,语境动态加权模块就是一个 获得以上结果之后,根据第1节阐述的AOA 位置相关的注意力机制,保留邻近词的积极作 原理,计算得出最终的AOA注意力数值y。 用,根据位置关系弱化远距离词的干扰。 2.5分类层 受Zeng等1m提出的局部情境焦点(local con- 设止、hS分别为局部特征提取器和全局特征 text focus.LCF)模型启发,DFAOA-BERT的语境 提取器中语境序列的Bi-LSTM隐藏状态输出, 动态加权模块定义了语义相关距离D,根据D来 y、y分别是局部特征提取器和全局特征提取器 判断如何给语境所对应的语义向量设定计算权重。 中的AOA数值,DFAOA-BERT最终的语义表示为 设输入的原语境序列为W={w1,w2,…,w,w+1,…, =(的)'y (17) w+m-1,…,w,其中{w,w+,…,w+m-}为方面词序 列,对语境序列中的任意单词w,(1≤j≤m),D的 =(ng) (18) 计算方法为 r=r人⊕r (19) o=p-+- 本模型将,视为情感分类所依据的最终分类 (12) 特征,通过一个线性网络将其映射到任务所要求 获得每个单词对应的语义相关距离之后,需 的结果空间,并使用softmax来计算方面词所对应 要设置语义相关距离的阈值T。,之后即可进行语 的情感态度为z的可能性: 境动态加权计算。对于语境序列中的任意单词 X=Wr+b (20) w,其语义编码向量所对应的权重s计算方式为 exp(X.) P(x=2)= (21) 1,D≤TD sj= 11- Dj-TD Di>Tp (13) ∑exp(K) n 对语境序列的每个单词按顺序计算权重,得 式中:W、b分别是线性网络的权重矩阵和偏 移。Z是情感分类结果的种类数,在本任务中,情 到权重矩阵S=(S1,2,…,S)。语境动态加权的最 感态度共有负面、中立、正面3种,故Z=3。 终输出O",即为语境序列的语义编码O与S相 在模型的训练方面,DFAOA-BERT采用交叉 乘的结果: 熵损失函数来计算训练损失,同时应用L2正则化 0"=0S (14) 来抑制过拟合现象。损失函数为 2)AOA机制。 AOA机制是DFAOA-BERT注意力机制的主 L=-∑,∑zI0=log(P(.=0+gf(2) 体部分,局部特征提取器和全局特征提取器都以 式中:()是指示函数;入是L2正则项;0是 此为核心。其主要设计思想与计算方法在第1节 DFAOA-BERT模型中所有可训参数的集合。 已作详细阐述。由于2个特征提取器在该部分的 3实验结果与分析 运算方式基本一致,下面以局部特征提取器为例 进行具体说明。 3.1数据集信息 考虑到BERT词嵌入的维数较高,进入AOA 本文在3个公开的方面词情感分析数据集上 模块后运算速度很慢,所以,DFAOA-BERT首先 进行了实验:SemEval2014任务4中的餐馆评论 使用双向长短时记忆网络(bi-directional long 数据集和笔记本评论数据集1),以及ACL-14
O e c O e a 为包含丰富信息的语义向量表示。为方便下文阐 释,记语境序列对应的语义编码为 ,方面词序 列对应的语义编码为 。 2.4 注意力机制 DFAOA-BERT 模型的注意力机制设计以 AOA 为核心,相对于全局特征提取器而言,局部 特征提取器额外设计了语境动态加权模块来增强 其获取局部关键信息的能力。 1) 语境动态加权模块。 语境动态加权模块的设计思想在于,一个方 面词的情感态度往往只与邻近的词有关,远距离 的词反而可能提供噪声信息而干扰模型的判断。 因此,从本质上讲,语境动态加权模块就是一个 位置相关的注意力机制,保留邻近词的积极作 用,根据位置关系弱化远距离词的干扰。 D D W = {w1,w2,··· ,wi ,wi+1,··· , wi+m−1,··· ,wn} {wi ,wi+1,··· ,wi+m−1} wj(1 ⩽ j ⩽ n) D 受 Zeng 等 [17] 提出的局部情境焦点 (local context focus, LCF) 模型启发,DFAOA-BERT 的语境 动态加权模块定义了语义相关距离 ,根据 来 判断如何给语境所对应的语义向量设定计算权重。 设输入的原语境序列为 ,其中 为方面词序 列,对语境序列中的任意单词 , 的 计算方法为 Dj = j− ( i+ ⌊m 2 ⌋) − ⌊m 2 ⌋ (12) TD wj sj 获得每个单词对应的语义相关距离之后,需 要设置语义相关距离的阈值 ,之后即可进行语 境动态加权计算。对于语境序列中的任意单词 ,其语义编码向量所对应的权重 计算方式为 sj = 1, Dj ⩽ TD 1− Dj −TD n , Dj > TD (13) S = (s1,s2,··· ,sn) O w O e c S 对语境序列的每个单词按顺序计算权重,得 到权重矩阵 。语境动态加权的最 终输出 ,即为语境序列的语义编码 与 相 乘的结果: O w = O e cS T (14) 2) AOA 机制。 AOA 机制是 DFAOA-BERT 注意力机制的主 体部分,局部特征提取器和全局特征提取器都以 此为核心。其主要设计思想与计算方法在第 1 节 已作详细阐述。由于 2 个特征提取器在该部分的 运算方式基本一致,下面以局部特征提取器为例 进行具体说明。 考虑到 BERT 词嵌入的维数较高,进入 AOA 模块后运算速度很慢,所以,DFAOA-BERT 首先 使用双向长短时记忆网络(bi-directional long hc ha short-term memory,Bi-LSTM)压缩维数、提取语义 信息。令 和 分别为 Bi-LSTM 最后输出的语 境隐藏状态和方面词隐藏状态,其计算方法为 ⇀ hc= ⇀ LSTM (O w ) ↼ hc= ↼ LSTM (O w ) hc = [ ⇀ hc , ↼ hc ] (15) ⇀ ha= ⇀ LSTM ( O e a ) ↼ ha= ↼ LSTM ( O e a ) ha = [ ⇀ ha, ↼ ha ] (16) hc ∈ R n×2dh ha ∈ R m×2dh 式中: ; ; dh 是 Bi-LSTM 的隐藏 状态维数。 γ 获得以上结果之后,根据第 1 节阐述的 AOA 原理,计算得出最终的 AOA 注意力数值 。 2.5 分类层 h L c h G c γ L γ G 设 、 分别为局部特征提取器和全局特征 提取器中语境序列的 Bi-LSTM 隐藏状态输出, 、 分别是局部特征提取器和全局特征提取器 中的 AOA 数值,DFAOA-BERT 最终的语义表示为 r L = ( h L c )T γ L (17) r G = ( h G c )T γ G (18) r = r L ⊕ r G (19) r softmax z 本模型将 视为情感分类所依据的最终分类 特征,通过一个线性网络将其映射到任务所要求 的结果空间,并使用 来计算方面词所对应 的情感态度为 的可能性: X = Wlr + bl (20) P(x = z) = exp(Xz) ∑Z i=1 exp(Xz) (21) Wl bl Z Z = 3 式中: 、 分别是线性网络的权重矩阵和偏 移。 是情感分类结果的种类数,在本任务中,情 感态度共有负面、中立、正面 3 种,故 。 L2 在模型的训练方面,DFAOA-BERT 采用交叉 熵损失函数来计算训练损失,同时应用 正则化 来抑制过拟合现象。损失函数为 L = − ∑ i ∑ z∈Z I(yi = z)log(P(yi = z))+λ||θ||2 (22) 式中: I(·) 是指示函数; λ 是 L2 正则项; θ 是 DFAOA-BERT 模型中所有可训参数的集合。 3 实验结果与分析 3.1 数据集信息 本文在 3 个公开的方面词情感分析数据集上 进行了实验:SemEval 2014 任务 4 中的餐馆评论 数据集和笔记本评论数据集[ 1 8 ] ,以及 ACL-14 ·146· 智 能 系 统 学 报 第 16 卷