第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201809029 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20181127.1446.002.html 融合语义与语法信息的中文评价对象提取 周浩,王莉2 (1.太原理工大学信息与计算机学院,山西晋中030600,2.太原理工大学大数据学院,山西晋中030600) 摘要:鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出 了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化 语义特征,弥补忽略的字符与词语的内部信息:并通过词性序列标注,对句子的词性信息进行表征,深化输入 的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。 该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确 率分别提高了2.1%与1.68%,联合提取的准确率为77.16%.具备良好的中文评价对象提取效果。 关键词:中文评价对象:语义:语法:序列标注:双向长短期记忆网络:条件随机场:提取模型 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2019)01-0171-08 中文引用格式:周浩,王莉.融合语义与语法信息的中文评价对象提取.智能系统学报,2019,14(1):171-178. 英文引用格式:ZHOU Hao,WANG Li.Chinese opinion target extraction based on fusion of semantic and syntactic information(J. CAAI transactions on intelligent systems,2019,14(1):171-178. Chinese opinion target extraction based on fusion of semantic and syntactic information ZHOU Hao',WANG Li (1.College of Information and Computer Science,Taiyuan University of Technology,Jinzhong 030600,China;2.College of Big Data,Taiyuan University of Technology,Jinzhong 030600,China) Abstract:The regular method of Chinese opinion target extraction has poor accuracy,and it ignores Chinese semantics and syntactic information.Therefore,a Chinese opinion target extraction model that combines semantic and syntactic in- formation has been proposed.On the basis of the original word vector,the model strengthens the semantic features by optimizing the character meaning strategy,so as to make up for the internal information between the ignored characters and words,and through part-of-speech sequence annotation,the word-of-speech information of the sentence is charac- terized,and it represents the input syntactic information in depth.Through the bidirectional long short-term memory and the conditional random field,the deviation of the labeled label is avoided,improving the extraction accuracy.The mod- el was validated on the BDC12017 dataset.When compared with a unincorporated semantics and grammar extraction model,the accuracy of Chinese keyword and sentiment extraction increased by 2.1%and 1.68%,respectively.The ac- curacy of joint extraction was 77.16%,indicating a good effect on Chinese opinion target extraction. Keywords:Chinese opinion target;semantic;syntactic;sequence labeling;bidirectional long short-term memory;condi- tional random field;extraction model 随着互联网技术的发展,用户在线评论信息大量涌现。这些评论既包括来自电子商务网站上 收稿日期:2018-09-14.网络出版日期:2018-11-28 对于商品的评价,也包括通过自媒体对自己所经 基金项目:国家自然科学基金项目(61872260):山西省重点研 发计划国际合作项目(201703D421013). 历的事物发表自己的观点或看法。依据这些评论 通信作者:王莉.E-mail:wangli@yut.edu.cn. 可解决多方面的问题,例如:帮助商家优化自身
DOI: 10.11992/tis.201809029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181127.1446.002.html 融合语义与语法信息的中文评价对象提取 周浩1 ,王莉2 (1. 太原理工大学 信息与计算机学院,山西 晋中 030600; 2. 太原理工大学 大数据学院,山西 晋中 030600) 摘 要:鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出 了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化 语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入 的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。 该模型在 BDCI2017 数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确 率分别提高了 2.1% 与 1.68%,联合提取的准确率为 77.16%,具备良好的中文评价对象提取效果。 关键词:中文评价对象;语义;语法;序列标注;双向长短期记忆网络;条件随机场;提取模型 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)01−0171−08 中文引用格式:周浩, 王莉. 融合语义与语法信息的中文评价对象提取[J]. 智能系统学报, 2019, 14(1): 171–178. 英文引用格式:ZHOU Hao, WANG Li. Chinese opinion target extraction based on fusion of semantic and syntactic information[J]. CAAI transactions on intelligent systems, 2019, 14(1): 171–178. Chinese opinion target extraction based on fusion of semantic and syntactic information ZHOU Hao1 ,WANG Li2 (1. College of Information and Computer Science, Taiyuan University of Technology, Jinzhong 030600, China; 2. College of Big Data, Taiyuan University of Technology, Jinzhong 030600, China) Abstract: The regular method of Chinese opinion target extraction has poor accuracy, and it ignores Chinese semantics and syntactic information. Therefore, a Chinese opinion target extraction model that combines semantic and syntactic information has been proposed. On the basis of the original word vector, the model strengthens the semantic features by optimizing the character meaning strategy, so as to make up for the internal information between the ignored characters and words, and through part-of-speech sequence annotation, the word-of-speech information of the sentence is characterized, and it represents the input syntactic information in depth. Through the bidirectional long short-term memory and the conditional random field, the deviation of the labeled label is avoided, improving the extraction accuracy. The model was validated on the BDCI2017 dataset. When compared with a unincorporated semantics and grammar extraction model, the accuracy of Chinese keyword and sentiment extraction increased by 2.1% and 1.68%, respectively. The accuracy of joint extraction was 77.16%, indicating a good effect on Chinese opinion target extraction. Keywords: Chinese opinion target; semantic; syntactic; sequence labeling; bidirectional long short-term memory; conditional random field; extraction model 随着互联网技术的发展,用户在线评论信息 大量涌现。这些评论既包括来自电子商务网站上 对于商品的评价,也包括通过自媒体对自己所经 历的事物发表自己的观点或看法。依据这些评论 可解决多方面的问题,例如:帮助商家优化自身 收稿日期:2018−09−14. 网络出版日期:2018−11−28. 基金项目:国家自然科学基金项目 (61872260);山西省重点研 发计划国际合作项目 (201703D421013). 通信作者:王莉. E-mail:wangli@tyut.edu.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
·172· 智能系统学报 第14卷 产品,辅助用户进行消费决策,进行互联网舆情 语由字符构成,如何利用词语的内部信息还未得 分析等。通常将此类信息挖掘称为细粒度的情感 到完美解决。深度学习中常规的网络模型嵌入 分析。评价对象提取是将这些评论从非结构化转 层,会忽略中文的语义与语法信息,从而影响中 为结构化数据,从而为细粒度的情感分析做好铺 文的评价对象提取的结果。 垫。因此评价对象提取是细粒度情感分析的关键 针对这些问题,本文将提取问题转换成序列 步骤。例如:评论“手机电池很给力,但像素太 标注问题。在采用双向长短期记忆网络(Bi- 低,不推荐”,其中“电池”与“像素”是评论主题词, LSTM)配合条件随机场(CRF)基础上,针对组成 “给力”与“太低”是评论情感词,这些都是需要提 评价对象字符的内部信息,提出了融合中文评论 取的目标。 的语义与语法信息的评价对象提取。本文是对 针对这一任务,早期的工作往往基于句法分 Jebbara等o工作的改进与扩充:l)首先,模型考 析,在特定领域中对大量出现的名词与名词短语 虑提取对象内部信息,在原始词向量的基础上, 进行频率统计,完成对象提取。2009年,Qu等 通过优化字符含义策略增强语义特征,弥补了忽 利用词间依存关系对情感词和评价对象进行同步 略的词语内部信息;2)深化网络对语法特征的理 抽取,即双向传播算法。之后Zhai等将双向传 解,通过对评论序列词性标注,训练生成词性向 播算法成功应用于中文数据中,但是该方法在大 量,将语义与语法信息共同作为网络输入;3)为 规模的数据上表现不够理想。为了解决这一问 了优化网络训练效果,引入Bi-LSTM捕获评论上 题,Zhang等利用HTS算法候选属性词的相关 下文信息,并通过CRF层克服标签偏差问题; 性,以提高提取精度。但传统提取方法一般基于 4)最后模型考虑了评论信息中的结构特征,通过 词与词之间的依赖关系,强调统计信息的作用, 一种新标注策略(Binary-BIO标注)为标注结果提 但这种方法需要抽取大量的人工特征与语言学基 供了结构化信息,较好地完成了评价对象提取, 础,因此造成特征稀硫的问题。孟园等通过考 虑评价对象的关联关系与语义关系构建了置信度 进一步提高了提取的准确率。 排序模型,完成中文信息的提取。廖祥文等] 1中文评价对象提取模型与Bi-LSTM 通过分析评价对象间的依存句法关系进行置信度 CRF网络 计算,对中文评论对象进行了抽取。 近年来,学者广泛将评价对象提取定义为序 1.1中文评价对象提取模型 列标注任务。丁晟春等通过条件随机场(CRF) 以双向长短期记忆网络(Bi-LSTM)配合条件 模型在不同方面进行特征选择,对中文微博的内 随机场(CRF)进行建模,提取模型基本可概括为 容进行评价对象的提取。深度学习中的序列标注 4个层次。1)嵌入层,即embedding层。神经网络 方法通过网络模型直接学习特征,避免了人工选 无法直接处理自然语言,因此需要将文字映射成 取特征的烦琐。该方法已广泛应用于文本提取等 高维向量。本文的提取模型首先在原始字向量的 自然语言处理领域。在此基础上,语言的字符与 基础上,通过优化字符含义策略强化了语义特 词语信息也受到越来越多学者的关注。2015年 征,弥补了忽略的字符与词语间的内部信息。此 Peng等m使用词语建模中文信息,联合学习中文 外通过词性序列标注方法,对评论中的词性信息 字符的表示,以识别中文实体;2016年Ma等通 进行了表征,深化了输入语法信息。将语义信息 过单词与字符表示的学习和组合,以提高实体识 与语法信息进行拼接,作为当前字符特征向量表 别的效果;2017年Pham等通过预训练字符模型 示。2)编码层。本文使用Bi-LSTM完成网络训 来增强实体的识别效果。从上述文献中可以发 练,双向捕获评论的双向信息,适合序列标注任 现,在深度学习的背景下,考虑语言中词语的内 务。3)解码层,即CRF层。通过考虑标签之间的 部信息已经成为了评论对象提取的热门方法。 约束关系,加入转移概率矩阵,选出分数最高的 但中文与英文的语义表达和语法构成不同, 标注路径作为标注结果。4)序列标注层。通过解 主要体现在词汇的构成方式不同。目前效果较好 码层的输出为每一个字符预测相应的标签,本文 的提取模型考虑的信息多为西方语言特征,例如 使用BIO标注方法,并在此基础上增加一位二进 单词的前缀与后缀信息等,而没有考虑中文词语 制标记为标注结果提供结构化的信息,从另一个 的组成字符内部信息。中文句子由词语构成,词 角度优化标注结果。具体模型如图1所示
产品,辅助用户进行消费决策,进行互联网舆情 分析等。通常将此类信息挖掘称为细粒度的情感 分析。评价对象提取是将这些评论从非结构化转 为结构化数据,从而为细粒度的情感分析做好铺 垫。因此评价对象提取是细粒度情感分析的关键 步骤。例如:评论“手机电池很给力,但像素太 低,不推荐”,其中“电池”与“像素”是评论主题词, “给力”与“太低”是评论情感词,这些都是需要提 取的目标。 针对这一任务,早期的工作往往基于句法分 析,在特定领域中对大量出现的名词与名词短语 进行频率统计,完成对象提取。2009 年,Qiu 等 [1] 利用词间依存关系对情感词和评价对象进行同步 抽取,即双向传播算法。之后 Zhai 等 [2]将双向传 播算法成功应用于中文数据中,但是该方法在大 规模的数据上表现不够理想。为了解决这一问 题,Zhang 等 [3]利用 HITS 算法候选属性词的相关 性,以提高提取精度。但传统提取方法一般基于 词与词之间的依赖关系,强调统计信息的作用, 但这种方法需要抽取大量的人工特征与语言学基 础,因此造成特征稀疏的问题。孟园等[4]通过考 虑评价对象的关联关系与语义关系构建了置信度 排序模型,完成中文信息的提取。廖祥文等[ 5 ] 通过分析评价对象间的依存句法关系进行置信度 计算,对中文评论对象进行了抽取。 近年来,学者广泛将评价对象提取定义为序 列标注任务。丁晟春等[6]通过条件随机场 (CRF) 模型在不同方面进行特征选择,对中文微博的内 容进行评价对象的提取。深度学习中的序列标注 方法通过网络模型直接学习特征,避免了人工选 取特征的烦琐。该方法已广泛应用于文本提取等 自然语言处理领域。在此基础上,语言的字符与 词语信息也受到越来越多学者的关注。2015 年 Peng 等 [7]使用词语建模中文信息,联合学习中文 字符的表示,以识别中文实体;2016 年 Ma 等 [8]通 过单词与字符表示的学习和组合,以提高实体识 别的效果;2017 年 Pham 等 [9]通过预训练字符模型 来增强实体的识别效果。从上述文献中可以发 现,在深度学习的背景下,考虑语言中词语的内 部信息已经成为了评论对象提取的热门方法。 但中文与英文的语义表达和语法构成不同, 主要体现在词汇的构成方式不同。目前效果较好 的提取模型考虑的信息多为西方语言特征,例如 单词的前缀与后缀信息等,而没有考虑中文词语 的组成字符内部信息。中文句子由词语构成,词 语由字符构成,如何利用词语的内部信息还未得 到完美解决。深度学习中常规的网络模型嵌入 层,会忽略中文的语义与语法信息,从而影响中 文的评价对象提取的结果。 针对这些问题,本文将提取问题转换成序列 标注问题。在采用双向长短期记忆网络 (BiLSTM) 配合条件随机场 (CRF) 基础上,针对组成 评价对象字符的内部信息,提出了融合中文评论 的语义与语法信息的评价对象提取。本文是对 Jebbara 等 [10]工作的改进与扩充:1) 首先,模型考 虑提取对象内部信息,在原始词向量的基础上, 通过优化字符含义策略增强语义特征,弥补了忽 略的词语内部信息;2) 深化网络对语法特征的理 解,通过对评论序列词性标注,训练生成词性向 量,将语义与语法信息共同作为网络输入;3) 为 了优化网络训练效果,引入 Bi-LSTM 捕获评论上 下文信息,并通过 CRF 层克服标签偏差问题; 4) 最后模型考虑了评论信息中的结构特征,通过 一种新标注策略 (Binary-BIO 标注) 为标注结果提 供了结构化信息,较好地完成了评价对象提取, 进一步提高了提取的准确率。 1 中文评价对象提取模型与 Bi-LSTMCRF 网络 1.1 中文评价对象提取模型 以双向长短期记忆网络 (Bi-LSTM) 配合条件 随机场 (CRF) 进行建模,提取模型基本可概括为 4 个层次。1) 嵌入层,即 embedding 层。神经网络 无法直接处理自然语言,因此需要将文字映射成 高维向量。本文的提取模型首先在原始字向量的 基础上,通过优化字符含义策略强化了语义特 征,弥补了忽略的字符与词语间的内部信息。此 外通过词性序列标注方法,对评论中的词性信息 进行了表征,深化了输入语法信息。将语义信息 与语法信息进行拼接,作为当前字符特征向量表 示。2) 编码层。本文使用 Bi-LSTM 完成网络训 练,双向捕获评论的双向信息,适合序列标注任 务。3) 解码层,即 CRF 层。通过考虑标签之间的 约束关系,加入转移概率矩阵,选出分数最高的 标注路径作为标注结果。4) 序列标注层。通过解 码层的输出为每一个字符预测相应的标签,本文 使用 BIO 标注方法,并在此基础上增加一位二进 制标记为标注结果提供结构化的信息,从另一个 角度优化标注结果。具体模型如图 1 所示。 ·172· 智 能 系 统 学 报 第 14 卷
第1期 周浩,等:融合语义与语法信息的中文评价对象提取 ·173 句子序列 语义信息 B-表征L表征 B-表征I表征 字表征 B-表征I【表征 B-表征L表征 g 5 语法信息 词性表征 词性表征 词性表征 词性表征 词性表征 训练层 LSTM LSTM LSTM LSTM LSTM LSTM STM LSTM LSTM 标注层 CRF CRF CRF CRF CRF 标注结果 B-sub-1 I-sub-1 0 B-sen-1 -sen-I 图1中文评价对象提取模型 Fig.1 Model of Chinese opinion target extraction 1.2Bi-LSTM-CRF网络 h=O,otanh(C) (6) 式中:i,为输入门;为遗忘门;0,为输出门;C,为状 Bi-LSTM-CRF网络是在长短期记忆网络的基 态候选值;W代表权重矩阵;b代表偏置项;σ为 础上优化后的模型,结合了长短期记忆网络与条 sigmoid函数;o代表按元素乘运算。双向长短期 件随机场的优点,是循环神经网络的一种,常常 记忆网络的隐藏层为双层结构,这样结合两个方 用来处理序列数据。网络的优点是:解决长距 向的信息进一步提高模型的学习能力,对于序列 离依赖问题的同时避免了梯度爆炸或消失,并在 标注任务非常有效。将输入字符设为X,先正向 标注路径选择过程中,克服标注标签的偏差问 计算得到正向隐藏层向量h,再反向计算得到反 题。网络模型的核心是记忆单元。Bi-LSTM隐藏 向隐藏层向量表示h:,然后进行拼接得到最终的 层的神经元由多个门控制,包括输入门、输出门、 隐藏层向量表示: 遗忘门。这些门的设置可以使之前输人的信息保 hi=[hyi:hni] (7) 存在网络中,并一直向前传递。记忆单元简单的 结构如图2所示。 2语义与语法信息的融合与标注策略 网络输出 2.1优化字符含义策略 输出门 模型输入是由单个字符组成的句子序列 W={W,W,…,W。中文能够包含语义的最小单 位是词语,因此使输入的字符包含所构成词语的 语义信息是本文的优化目标之一。中文的某一字 遗忘门 细胞状态 符在不同词语中位置不同从而导致字符含义发生 .0 变化,例如:“泡面”与“电灯泡”这组词语,由于 泡”字位置不同,含义也完全不同。参考Chen等回 输人门 的思想,设计了优化字符含义的策略。考虑某字 网络输入 符因在组成词中的位置变化导致的含义不同,从 而为具备这一特征的字符W:=C,C}分配两个 图2LSTM神经单元 Fig.2 Structure of LSTM neural unit 向量,对应字符在词语中的起始与非起始位置。 设1时刻下,网络输人为X,输人门输入为h, 因此嵌入层中的语义信息表征方法如图3所示。 单元状态为C,记忆单元内对应的更新与输出 提取对象1: 泡 如式(1)(6): f;=(Wi[h-1.X]+br) (1) B-表征 1表征 i=(Wi[h-1X:]+bi) (2) 提取对象2: C,tanh(We[h-1.X,]+be) (3) O:=(Wo[h-1.X,]+bo) (4) 图3字向量选择方法 C:=fioC-1+inoC (5) Fig.3 Character vector selection method
1.2 Bi-LSTM-CRF 网络 Bi-LSTM-CRF 网络是在长短期记忆网络的基 础上优化后的模型,结合了长短期记忆网络与条 件随机场的优点,是循环神经网络的一种,常常 用来处理序列数据[11]。网络的优点是:解决长距 离依赖问题的同时避免了梯度爆炸或消失,并在 标注路径选择过程中,克服标注标签的偏差问 题。网络模型的核心是记忆单元。Bi-LSTM 隐藏 层的神经元由多个门控制,包括输入门、输出门、 遗忘门。这些门的设置可以使之前输入的信息保 存在网络中,并一直向前传递。记忆单元简单的 结构如图 2 所示。 遗忘门 网络输入 输入门 输出门 网络输出 h 1 .0 g 细胞状态 图 2 LSTM 神经单元 Fig. 2 Structure of LSTM neural unit Xt ht Ct 设 t 时刻下,网络输入为 ,输入门输入为 , 单元状态为 ,记忆单元内对应的更新与输出 如式 (1)~(6): ft = σ(Wf[ht−1,Xt]+bf) (1) it = σ(Wi[ht−1,Xt]+bi) (2) Cet = tanh(Wc[ht−1,Xt]+bc) (3) Ot = σ(W0[ht−1,Xt]+b0) (4) Ct = ft ◦Ct−1 +it ◦Cet (5) ht = Ot ◦ tanh(Ct) (6) it ft Ot Cet W b σ ◦ Xi hf i hri 式中: 为输入门; 为遗忘门; 为输出门; 为状 态候选值; 代表权重矩阵; 代表偏置项; 为 sigmoid 函数; 代表按元素乘运算。双向长短期 记忆网络的隐藏层为双层结构,这样结合两个方 向的信息进一步提高模型的学习能力,对于序列 标注任务非常有效。将输入字符设为 ,先正向 计算得到正向隐藏层向量 ,再反向计算得到反 向隐藏层向量表示 ,然后进行拼接得到最终的 隐藏层向量表示: hi = [hf i; hri] (7) 2 语义与语法信息的融合与标注策略 2.1 优化字符含义策略 W = {W1,W2,··· ,Wk} Wi = {CB,CI} 模型输入是由单个字符组成的句子序列 。中文能够包含语义的最小单 位是词语,因此使输入的字符包含所构成词语的 语义信息是本文的优化目标之一。中文的某一字 符在不同词语中位置不同从而导致字符含义发生 变化,例如:“泡面”与“电灯泡”这组词语,由于 “泡”字位置不同,含义也完全不同。参考 Chen 等 [12] 的思想,设计了优化字符含义的策略。考虑某字 符因在组成词中的位置变化导致的含义不同,从 而为具备这一特征的字符 分配两个 向量,对应字符在词语中的起始与非起始位置。 因此嵌入层中的语义信息表征方法如图 3 所示。 面 电 B-表征 I-表征 灯 泡 泡 提取对象1: 提取对象2: 图 3 字向量选择方法 Fig. 3 Character vector selection method LSTM LSTM LSTM LSTM 灯 泡 还 不 CRF B-sub-1 O B-sen-1 I-sub-1 错 I-sen-1 B-表征 I-表征 词性表征 字表征 词性表征 B-表征 I-表征 B-表征 I-表征 B-表征 I-表征 词性表征 词性表征 词性表征 LSTM LSTM LSTM LSTM LSTM LSTM CRF CRF CRF CRF 语义信息 语法信息 句子序列 训练层 标注层 标注结果 图 1 中文评价对象提取模型 Fig. 1 Model of Chinese opinion target extraction 第 1 期 周浩,等:融合语义与语法信息的中文评价对象提取 ·173·
·174· 智能系统学报 第14卷 优化字符含义策略以连续词袋模型(CBOW) 性类别包括形容词(a)、动词(w)、名词(n)、动名 为基础,根据上下文单元对当前单元进行向量表示。 词(wn)、副词(d),再使用word2vec为每一种词性 由于处理单元为字符,句子W={W,W2,…,W在 训练生成对应的词性向量序列:wos={wpos1,wo2,…, CBOW模型下训练目标函数为 ws小,词性向量由集合e表示。在式(9)、式(10) W (8) 的基础上,融合语义与语法信息的字符向量X可 表示为 式中:K表示滑动窗口的大小;M为句子序列的字 符个数。使用上下文预测目标字符向量x可表示为 X=W, *2 (12) X=W,⊕ 1 (9) 在式(11)基础上,最终嵌入层字符可表示为 X,=[e(w:e'(w] (13) 式中:W,为评价对象的初始化向量表示;N为当 2.3 序列标注策略 前评价对象的字符组成个数:k表示当前滑动窗口 本文将提取问题转换为序列标注问题进行处 位于单词的第k个字符;⊕表示向量间的操作。当 理,根据标注结果识别评价对象范围。传统的序 评价对象组成字符由多个向量表示时,式(9)可 列标注不能很好地体现出评价对象及其属性的匹 改写为 配关系。因此本文在传统的BIO标注方法1下, 添加新的标记,用来优化标注结果,实现联合提 X,=W⊕ (10) 取。在BIO标注中,“B”与“I”表示词语的范围。 根据式(9)为字符生成不同的向量表示,得到 “B”为提取对象的起始位置;I”为提取对象的非 向量集合e5,则融合语义信息的输入字符w,的向 起始位置;“O”代表提取对象外部,即无关字符。 量X表示为 本文所需识别评价对象可概括为主题词与情感 X,=[e(w] (11) 词,使用“sub”与“sen”分别表示标注含义。在此 综上所述,优化含义的字符表示可由式(8)~ 基础上,添加一位二进制标记,用来表示提取对 (10)训练生成,并由式(11)表示。 象是否存在匹配关系。联合提取“1”代表当前评 2.2词性向量训练 价对象存在匹配情感属性内容,“0”则反之。例 词性是一种重要的语法信息。自然语言中, 如:“手机电池很给力,但像素太低,不推荐”,评 句子中的固定成分具有固定词性,通过句子的词 论对象为<电池,给力>,对应标签{B-sub-l,I-sub- 性特征学习可以获得句子的语法约束。首先通 1,B-sen-l,I-sen-1}。从标注结果可以清晰看出, 过条件随机场对中文评论进行词性标注,得到每 评论的主题词存在对应情感,以就近原则完成联 条评论的词性标注序列S={s,s2,…,Sm。标注词 合提取。标注实例如表1所示。 表1中文评论标注结果 Table 1 Chinese commentary annotation results 输入序列 手机 电 沙 给 力 ,但 举 素 太 公 主题词标签 B-sub-1 I-sub-1 B-sub-1 I-sub-1 情感词标签 B-sen-1 I-sen-1 B-sen-1 I-sen-1 外部标签 00 00 2.4标注原理与模型训练 的选择,克服标签偏差问题1。已知输入句子的 Bi-LSTM网络的隐藏层输出为标签的概率分 字符序列为W={W,W2,…,W,则对应的标签序 布,使用softmax分类器完成标注时,每个字符的 列为t={,2,…,tx,f为真实路径,r={,5,…,】 标注结果互不影响,从而忽略了相邻标签之间的 为W可能输出的标签序列。因此给定字符序列 依赖关系。由标注规则可知,标签I无法成为序 W在所有可能标注序列下的条件概率为 列的第一个标签;标签B-sub的下一个标签也仅 n6,(t-,t,W) 仅可能是I-sub或O。因此在CRF层中,引入标 P(IW)= (14) ∑Π⊙(,W) 签转移概率,使用Viterbi算法完成最优标注序列
W = {W1,W2,··· ,Wk} 优化字符含义策略以连续词袋模型 (CBOW)[13] 为基础,根据上下文单元对当前单元进行向量表示。 由于处理单元为字符,句子 在 CBOW 模型下训练目标函数为 Φ(W) = 1 K K∑−M i=M logP(wi |wi−M,wi−M + 1,··· ,wi+M) (8) K M Xj 式中: 表示滑动窗口的大小; 为句子序列的字 符个数。使用上下文预测目标字符向量 可表示为 Xj = Wj ⊕ 1 Nj ∑Nj k=1 ck (9) Wj Nj k k ⊕ 式中: 为评价对象的初始化向量表示; 为当 前评价对象的字符组成个数; 表示当前滑动窗口 位于单词的第 个字符; 表示向量间的操作。当 评价对象组成字符由多个向量表示时,式 (9) 可 改写为 Xj = Wj ⊕ 1 Nj c B 1 + ∑Nj k=2 c I k (10) e c Wj Xj 根据式 (9) 为字符生成不同的向量表示,得到 向量集合 ,则融合语义信息的输入字符 的向 量 表示为 Xj = [e c (wj)] (11) 综上所述,优化含义的字符表示可由式 (8)~ (10) 训练生成,并由式 (11) 表示。 2.2 词性向量训练 S = {s1,s2,··· ,sm} 词性是一种重要的语法信息。自然语言中, 句子中的固定成分具有固定词性,通过句子的词 性特征学习可以获得句子的语法约束[14]。首先通 过条件随机场对中文评论进行词性标注,得到每 条评论的词性标注序列 。标注词 wpos = {wpos1,wpos2,··· , wposk} e s Xj 性类别包括形容词 (/a)、动词 (/v)、名词 (/n)、动名 词 (/vn)、副词 (/d),再使用 word2vec 为每一种词性 训练生成对应的词性向量序列: ,词性向量由集合 表示。在式 (9)、式 (10) 的基础上,融合语义与语法信息的字符向量 可 表示为 Xj = Wj ⊕ 1 Nj c B 1 + ∑Nj k=2 c I k ⊕Wposj (12) 在式 (11) 基础上,最终嵌入层字符可表示为 Xj = [e c (wj);e s (wj)] (13) 2.3 序列标注策略 本文将提取问题转换为序列标注问题进行处 理,根据标注结果识别评价对象范围。传统的序 列标注不能很好地体现出评价对象及其属性的匹 配关系。因此本文在传统的 BIO 标注方法[15]下, 添加新的标记,用来优化标注结果,实现联合提 取。在 BIO 标注中,“B”与“I”表示词语的范围。 “B”为提取对象的起始位置;“I”为提取对象的非 起始位置;“O”代表提取对象外部,即无关字符。 本文所需识别评价对象可概括为主题词与情感 词,使用“sub”与“sen”分别表示标注含义。在此 基础上,添加一位二进制标记,用来表示提取对 象是否存在匹配关系。联合提取“1”代表当前评 价对象存在匹配情感属性内容,“0”则反之。例 如:“手机电池很给力,但像素太低,不推荐”,评 论对象为<电池,给力>,对应标签{B-sub-1, I-sub- 1, B-sen-1, I-sen-1}。从标注结果可以清晰看出, 评论的主题词存在对应情感,以就近原则完成联 合提取。标注实例如表 1 所示。 表 1 中文评论标注结果 Table 1 Chinese commentary annotation results 输入序列 手 机 电 池 给 力 , 但 像 素 太 低 主题词标签 B-sub-1 I-sub-1 B-sub-1 I-sub-1 情感词标签 B-sen-1 I-sen-1 B-sen-1 I-sen-1 外部标签 O O O O 2.4 标注原理与模型训练 Bi-LSTM 网络的隐藏层输出为标签的概率分 布,使用 softmax 分类器完成标注时,每个字符的 标注结果互不影响,从而忽略了相邻标签之间的 依赖关系。由标注规则可知,标签 I 无法成为序 列的第一个标签;标签 B-sub 的下一个标签也仅 仅可能是 I-sub 或 O。因此在 CRF 层中,引入标 签转移概率,使用 Viterbi 算法完成最优标注序列 W = {W1,W2,··· ,Wk} t = {t1,t2,··· ,tK} et t ∗ = {t ∗ 1 ,t ∗ 2 ,··· ,t ∗ K } W W t ∗ 的选择,克服标签偏差问题[16]。已知输入句子的 字符序列为 ,则对应的标签序 列为 , 为真实路径, 为 可能输出的标签序列。因此给定字符序列 在所有可能标注序列 下的条件概率为 P(t|W) = ∏n i=1 Θi(ti−1,ti ,W) ∑ t∗ ∏n i=1 Θi(t ∗ i−1 ,t ∗ i ,W) (14) ·174· 智 能 系 统 学 报 第 14 卷
第1期 周浩,等:融合语义与语法信息的中文评价对象提取 ·175· 式中O(t-,,W为潜在的增益函数,目的是使标注 TP (18) 的真实路径在所有可能路径中的得分最高。因此 R=TP,+FN, 在所有的标签序列找到条件概率最高的序列为 2PRi Fu=P+R (19) T=argmax p(W) (15) 式中:TP,为第类关系中被正确分类的实例个数; 综上,通过神经网络训练输入标签的概率矩 FP:为被错误的分为第类的实例数;FN:为本属于 阵后,根据式(14)、式(15)可选择出得分最高的标 第类实例被分为其他类别的实例数。 注序列。训练模型时给定一组已完成标记的训练 3.3超参数选择 数据T,并定义L2正则化损失似然函数为 神经网络在训练过程中,超参数的设置具有 L=∑,tog(P(W)+Ior (16) 重要的意义。实验结果证明,学习率、迭代次数 对识别效果有很大影响。在网络模型训练过程 式中:A为正则化系数;日为模型的参数集合; 中,迭代次数超过60次时,评论对象提取结果的 (d/2)©为L2范数正则化。模型使用反向传播算 准确率、召回率、F值均开始下降。可见迭代次 法训练随机梯度下降(GSD)算法进行优化。 数并非越多越好,过度迭代可能导致模型过拟 3实验结果与分析 合,影响模型效果。在同一个模型下,以网络的 学习率为自变量,迭代相同次数后,模型在学习 为了验证语义与语法信息对中文评价对象提 率为0.001时表现更好。可见,学习率对网络训 取的积极作用,体现提出的语义信息与语法信息 练效果影响同样很大,学习率过大模型无法收 的有效性与优势,进行了以下实验。并在此基础 敛,导致训练结果不理想。迭代次数和学习率的 上,讨论了不同网络模型对于评价对象提取的影 影响实验结果如图4、图5所示。 响,论证了Binary-.BIO标注策略对提取结果结构 化影响,验证了本文的优势。 3.1实验数据 本文采用2017年CCF大数据与计算智能大 赛(BDCI2017)所提供的中文电商商品评论数据 士一准确率 一·一召回率 集,共包含17652条真实中文评论信息。经统计, 一F 评论中共有情感词43041个,主题词22017个。 50 每条中文评论中存在多个(对)评价对象,按照主 10 30 50 70 迭代次数 题词与情感词对应排序。 图4迭代次数影响 由于数据来源于真实的电商平台,存在数据 Fig.4 Effect of iterations 结构松散,存在大量无具体含义评论的情况,需 进行数据清洗。例如:表情符号、错误的标点符 号以及无需提取的短评论。清洗完毕后,将数据 80 态材书合为 集划分为训练集与测试集,并使用新标注策略进 行标注,生成训练数据。具体划分情况如表2所示。 0 表2数据分配表 60 -=0.01 ±—=0.001 Table 2 Data allocation table 数据 中文评论条数/条 10 30 50 70 90 迭代次数 训练集 12000 图5学习率影响 测试集 2000 Fig.5 Effect of learning rate 3.2评价方法 综上,模型的学习率设为0.001,迭代次数为 对于评价对象提取评价,使用综合性能作为 60次,字符的向量维度设为300维,其中,包含语 最终的评测标准。评价指标包括准确率、召回率 义信息部分为250维,语法信息部分为50维。并 和F值。计算公式如下: 采用Hinton等提出的dropout方法将隐含层的节 TP 点以0.5的概率随机忽略。具体的超参数设置如 P,= (17) TP:+FP, 表3所示
Θi(ti−1,ti ,W) et 式中 为潜在的增益函数,目的是使标注 的真实路径在所有可能路径中的得分最高。因此 在所有的标签序列找到条件概率最高 的序列为 et = argmax t∈t ∗ p(t|W) (15) T L2 综上,通过神经网络训练输入标签的概率矩 阵后,根据式 (14)、式 (15) 可选择出得分最高的标 注序列。训练模型时给定一组已完成标记的训练 数据 ,并定义 正则化损失似然函数为 L = ∑ T log(P(ti |W))+ λ 2 ||Θ||2 (16) λ Θ (λ/2)∥Θ∥ 2 L2 式中: 为正则化系数; 为模型的参数集合; 为 范数正则化。模型使用反向传播算 法训练随机梯度下降 (GSD) 算法进行优化。 3 实验结果与分析 为了验证语义与语法信息对中文评价对象提 取的积极作用,体现提出的语义信息与语法信息 的有效性与优势,进行了以下实验。并在此基础 上,讨论了不同网络模型对于评价对象提取的影 响,论证了 Binary-BIO 标注策略对提取结果结构 化影响,验证了本文的优势。 3.1 实验数据 本文采用 2017 年 CCF 大数据与计算智能大 赛 (BDCI2017) 所提供的中文电商商品评论数据 集,共包含 17 652 条真实中文评论信息。经统计, 评论中共有情感词 43 041 个,主题词 22 017 个。 每条中文评论中存在多个 (对) 评价对象,按照主 题词与情感词对应排序。 由于数据来源于真实的电商平台,存在数据 结构松散,存在大量无具体含义评论的情况,需 进行数据清洗。例如:表情符号、错误的标点符 号以及无需提取的短评论。清洗完毕后,将数据 集划分为训练集与测试集,并使用新标注策略进 行标注,生成训练数据。具体划分情况如表 2 所示。 表 2 数据分配表 Table 2 Data allocation table 数据 中文评论条数/条 训练集 12 000 测试集 2 000 3.2 评价方法 F1 对于评价对象提取评价,使用综合性能作为 最终的评测标准。评价指标包括准确率、召回率 和 值。计算公式如下: Pi = TPi TPi +FPi (17) Ri = TPi TPi +FNi (18) F1i = 2PiRi Pi +Ri (19) TPi i FPi i FNi i 式中: 为第 类关系中被正确分类的实例个数; 为被错误的分为第 类的实例数; 为本属于 第 类实例被分为其他类别的实例数。 3.3 超参数选择 F1 神经网络在训练过程中,超参数的设置具有 重要的意义。实验结果证明,学习率、迭代次数 对识别效果有很大影响。在网络模型训练过程 中,迭代次数超过 60 次时,评论对象提取结果的 准确率、召回率、 值均开始下降。可见迭代次 数并非越多越好,过度迭代可能导致模型过拟 合,影响模型效果。在同一个模型下,以网络的 学习率为自变量,迭代相同次数后,模型在学习 率为 0.001 时表现更好。可见,学习率对网络训 练效果影响同样很大,学习率过大模型无法收 敛,导致训练结果不理想。迭代次数和学习率的 影响实验结果如图 4、图 5 所示。 60 70 80 90 10 30 50 70 90 百分比/% 迭代次数 准确率 召回率 F1 图 4 迭代次数影响 Fig. 4 Effect of iterations 50 60 70 80 90 10 30 50 70 90 F1/% 迭代次数 lr=0.01 lr=0.001 图 5 学习率影响 Fig. 5 Effect of learning rate 综上,模型的学习率设为 0.001,迭代次数为 60 次,字符的向量维度设为 300 维,其中,包含语 义信息部分为 250 维,语法信息部分为 50 维。并 采用 Hinton 等提出的 dropout 方法将隐含层的节 点以 0.5 的概率随机忽略。具体的超参数设置如 表 3 所示。 第 1 期 周浩,等:融合语义与语法信息的中文评价对象提取 ·175·