第14卷第4期 智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201804013 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190323.2251.002.html 反馈式K近邻语义迁移学习的领域命名实体识别 朱艳辉2,李飞2,冀相冰2,曾志高2,徐啸2 (1.湖南工业大学计算机学院,湖南株洲412008:2.湖南省智能信息感知及处理技术重点实验室,湖南株洲 412008) 摘要:领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点,构建基于深度学 习的BiLSTM-CNN-CRFs网络模型,并提出一种反馈式K近邻语义迁移学习的领域命名实体识别方法。首先, 对专业领域语料和通用领域语料分别训练得到语料文档向量,使用马哈拉诺比斯距离计算领域语料与通用语 料的语义相似性,针对每个专业领域样本分别取K个语义最相似的通用领域样本进行语义迁移学习,构建多个 迁移语料集。然后,使用BiLSTM-CNN-CRFs网络模型对迁移语料集进行领域命名实体识别,并对识别结果进 行评估和前馈,根据反馈结果选取合适的K值,作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进 行实验验证,结果表明:本文方法取得了很好的识别效果,可以有效解决专业领域语料匮乏问题。 关键词:领域命名实体识别:反馈式K近邻:语义迁移学习:深度学习:卷积神经网络:文档向量;马哈拉诺比斯 距离:包装领域:医疗领域 中图分类号:TP391文献标志码:A文章编号:1673-4785(201904-0820-11 中文引用格式:朱艳辉,李飞,冀相冰,等.反馈式K近邻语义迁移学习的领域命名实体识别.智能系统学报,2019,14(4): 820-830. 英文引用格式:ZHU Yanhui,,LI Fei,,JI Xiangbing,etal.Domain-named entity recognition based on feedback K-nearest semantic transfer learning JI.CAAI transactions on intelligent systems,2019,14(4):820-830. Domain-named entity recognition based on feedback K-nearest semantic transfer learning ZHU Yanhui,LI Fei,JI Xiangbing,ZENG Zhigao2,XU Xiao2 (1.School of Computer,Hu'nan University of Technology,Zhuzhou 412008,China;2.Hu'nan Key Laboratory of Intelligent Inform- ation Perception and Processing Technology,Zhuzhou 412008,China) Abstract:Domain-named entity recognition is an important foundation in constructing domain knowledge maps.In view of the scarcity of such recognition,this paper constructs a BiLSTM-CNN-CRFs network model based on deep learning as well as proposes a domain-named entity recognition method based on feedback K-nearest-neighbor semantic transfer learning.First,the corpus of the professional field and the general field were trained to obtain the corpus docu- ment vector,and the semantic similarity between the corpus of a domain and the common corpus was calculated using the Mahalanobis distance calculation.For each specialized domain sample,K common domain samples with the most similar semantics were taken for semantic transfer learning,and several transfer corpus sets were constructed.Then,the BiLSTM-CNN-CRFs network model was used to identify domain-named entities in N migration corpuses and evaluate and feedforward the recognition results.An appropriate K value was selected as the best threshold for semantic transfer learning according to the feedback results.The packaging and medical fields were taken as examples for experimental verification.The results showed that the method proposed in this paper has a good recognition effect and can effectively solve the problem of lack of corpus in the field of specialization. Keywords:domain-named entity recognition;feedback K-nearest neighbor,semantic transfer learning;deep learning; CNN;Doc2Vec;Mahalanobis distance;packaging field;medical field 收稿日期:2018-04-10.网络出版日期:2019-03-25 命名实体识别(named entity recognition,.NER) 基金项目:国家自然科学基金项目(61402165):湖南省教育厅 重点项目(15A049):湖南工业大学重点项目(17ZBL- 作为信息抽取的子任务,是指将非结构化文本中 WT001KT006):湖南省研究生科研创新项目 具有特定意义的实体抽取出来,对文本的结构化 (CX2017B688). 通信作者:李飞.E-mail:flytoskye@l63.com 起着至关重要的作用。由于其在自然语言处理中
DOI: 10.11992/tis.201804013 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190323.2251.002.html 反馈式 K 近邻语义迁移学习的领域命名实体识别 朱艳辉1,2,李飞1,2,冀相冰1,2,曾志高1,2,徐啸1,2 (1. 湖南工业大学 计算机学院,湖南 株洲 412008; 2. 湖南省智能信息感知及处理技术重点实验室,湖南 株洲 412008) 摘 要:领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点,构建基于深度学 习的 BiLSTM-CNN-CRFs 网络模型,并提出一种反馈式 K 近邻语义迁移学习的领域命名实体识别方法。首先, 对专业领域语料和通用领域语料分别训练得到语料文档向量,使用马哈拉诺比斯距离计算领域语料与通用语 料的语义相似性,针对每个专业领域样本分别取 K 个语义最相似的通用领域样本进行语义迁移学习,构建多个 迁移语料集。然后,使用 BiLSTM-CNN-CRFs 网络模型对迁移语料集进行领域命名实体识别,并对识别结果进 行评估和前馈,根据反馈结果选取合适的 K 值,作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进 行实验验证,结果表明:本文方法取得了很好的识别效果,可以有效解决专业领域语料匮乏问题。 关键词:领域命名实体识别;反馈式 K 近邻;语义迁移学习;深度学习;卷积神经网络;文档向量;马哈拉诺比斯 距离;包装领域;医疗领域 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)04−0820−11 中文引用格式:朱艳辉, 李飞, 冀相冰, 等. 反馈式 K 近邻语义迁移学习的领域命名实体识别 [J]. 智能系统学报, 2019, 14(4): 820–830. 英文引用格式:ZHU Yanhui, LI Fei, JI Xiangbing, et al. Domain-named entity recognition based on feedback K-nearest semantic transfer learning[J]. CAAI transactions on intelligent systems, 2019, 14(4): 820–830. Domain-named entity recognition based on feedback K-nearest semantic transfer learning ZHU Yanhui1,2 ,LI Fei1,2 ,JI Xiangbing1,2 ,ZENG Zhigao1,2 ,XU Xiao1,2 (1. School of Computer, Hu’nan University of Technology, Zhuzhou 412008, China; 2. Hu’nan Key Laboratory of Intelligent Information Perception and Processing Technology, Zhuzhou 412008, China) Abstract: Domain-named entity recognition is an important foundation in constructing domain knowledge maps. In view of the scarcity of such recognition, this paper constructs a BiLSTM-CNN-CRFs network model based on deep learning as well as proposes a domain-named entity recognition method based on feedback K-nearest-neighbor semantic transfer learning. First, the corpus of the professional field and the general field were trained to obtain the corpus document vector, and the semantic similarity between the corpus of a domain and the common corpus was calculated using the Mahalanobis distance calculation. For each specialized domain sample, K common domain samples with the most similar semantics were taken for semantic transfer learning, and several transfer corpus sets were constructed. Then, the BiLSTM-CNN-CRFs network model was used to identify domain-named entities in N migration corpuses and evaluate and feedforward the recognition results. An appropriate K value was selected as the best threshold for semantic transfer learning according to the feedback results. The packaging and medical fields were taken as examples for experimental verification. The results showed that the method proposed in this paper has a good recognition effect and can effectively solve the problem of lack of corpus in the field of specialization. Keywords: domain-named entity recognition; feedback K-nearest neighbor; semantic transfer learning; deep learning; CNN; Doc2Vec; Mahalanobis distance; packaging field; medical field 命名实体识别 (named entity recognition,NER) 作为信息抽取的子任务,是指将非结构化文本中 具有特定意义的实体抽取出来,对文本的结构化 起着至关重要的作用。由于其在自然语言处理中 收稿日期:2018−04−10. 网络出版日期:2019−03−25. 基金项目:国家自然科学基金项目 (61402165);湖南省教育厅 重点项目 (15A049);湖南工业大学重点项目 (17ZBLWT001KT006) ;湖南省研究生科研创新项 目 (CX2017B688). 通信作者:李飞. E-mail: flytoskye@163.com. 第 14 卷第 4 期 智 能 系 统 学 报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·821· 的重要地位,许多国际会议,如MUC-6、MUC-7、 到一个高维的再生核希尔伯特空间,并在此空间 Conll22002等,都将命名实体识别作为共享任务 中最小化源和目标的数据距离,同时最大程度地 (share tasks)。国内会议诸如全国语义网与知识图 保留它们各自的内部属性。Long等o在TCA基 谱计算大会(CCKS2017),也组织了医疗实体识别 础上提出了联合分布适配方法(joint distribution 的评测任务。传统命名实体识别采用最大熵、隐 adaptation,JDA),在源域和目标域条件分布不同 马尔科夫模型、支持向量机、条件随机场等方法, 的基础上,提出了联合分布适配方法,同时适配 但传统机器学习方法需要人工定义特征模板,并 源域和目标域的边缘分布和条件分布,在4种类 且无法充分获取隐含信息,对文本长距离依赖关 型的跨域图像分类任务上取得了较好的效果。卞 系难以捕捉。随着深度学习的快速发展以及卷积 则康等川提出一种基于相似度学习的多源域迁 神经网络(convolutional neural network,CNN)、循 移SL-MSTL算法,增加对多源域与目标域之间的 环神经网络(recurrent neural network,RNN)、长短 相似度学习,可以有效地利用各源域中的有用信 期记忆网络(long short-.term memory,LSTM)等学 息。庄福振介绍了迁移学习研究进展,并且针 习算法的提出,命名实体识别任务在获取隐含信 对迁移学习领域所做的工作和未来的方向做了总 息及捕捉长距离文字依赖关系上取得了长足的进 结和展望。 步。命名实体识别是典型的序列标注任务, 目前,已有命名实体识别方法在通用领域的 RNN可以很好地克服传统机器学习的文本长依 人名、地名、组织机构名上取得了较好的效果。 赖信息难以获取的缺点山,具有一定的记忆功能, 然而专业领域由于语料匮乏,导致领域命名实体 但RNN在训练算法时存在梯度弥散和梯度爆炸 识别进展缓慢且识别效果差强人意。因此,本文 问题。因此,Hochreiter等提出了LSTM方法, 针对专业领域语料匮乏、标注语料缺失等特点, LSTM是一种特殊的循环神经网络,能够学习到 引入迁移学习技术,构建基于深度学习的BL- 长期依赖关系,以解决RNN梯度消失和梯度爆炸 STM-CNN-CRFs网络模型,提出一种反馈式K近 的问题。Yoon)首次将CNN应用到自然语言处 邻语义迁移学习的领域命名实体识别算法。首 理领域并获得成功后,由于其可以利用窗口滑 先,对专业领域语料和通用领域语料分别训练得 动,可以很好地解决词之间的组合特征及一部分 到语料文档向量,使用马哈拉诺比斯距离计算领 依赖问题,故广泛的应用在自然语言处理领域。 域语料与通用语料的语义相似性,针对每个专业 张海楠等提出了一种用于深度学习框架的字词 领域样本分别取K个语义最相似的通用领域样 联合方法,结合字词特征,提高了系统性能,最终 本进行语义迁移学习,构建N个迁移语料集。然 取得了较好的F,值。Ma等提出了基于LSTM: 后,使用BiLSTM-CNN-CRFs网络模型对N个迁 CNN-CRFs的端对端序列标注方法,该模型无需 移语料集进行领域命名实体识别,并对识别结果 数据预处理和特征选择,在Conll2003语料库上 进行评估和前馈,根据反馈结果选取合适的 F,值为91.21%。Chiu等提出了BiLSTM-CNNs K值,作为语义迁移学习的最佳阈值。实验结果 的新型网络框架,在Coll2003语料库取得F,值 表明,K近邻语义迁移学习算法取得了较好的结 为91.61%的成绩。姚霖等m提出一种基于词边 果,可以有效解决专业领域语料匮乏问题。 界字向量的中文命名实体识别方法,在Sighan 深度学习BiLSTM-CNN-CRFs网 Bakeoff-.3语料中取得了F,值89.18%的效果,上 络模型构建 述文献证明了深度学习神经网络用于序列标注任 务的可行性和有效性。 本文利用CNN的词组合特点和LSTM的长 迁移学习图是运用已有知识对不同但是相关 期依赖关系,结合CRF作为解码输出,构建一种 领域问题进行求解的一种新的机器学习方法。其 基于深度学习的BiLSTM-CNN-CRFs网络模型, 放宽了传统机器学习的两个基本假设,通过减小 作为命名实体识别的学习算法。首先对文本的字 源域与目标域的数据分布差异,从而从已有的知 训练词向量,将词向量输入到CNN层,得到窗口 识中解决目标领域中仅有少量或没有标签样本数 词组合特征,再进一步输人到LSTM层,LSTM选 据的学习问题。Pan等提出了著名的迁移成分 取分数最高的标签作为输出。但LSTM默认词之 分析(transfer component analysis,TCA)方法,针对 间是独立分布的,并未考虑相邻词之间的相关性 域适配(domain adaptation)问题中源域和目标域 及其约束性,对于序列标注任务,相邻词之间的 处于不同数据分布,将2个领域的数据一起映射 标签相关性直接影响句子的最佳标签链,所以在
的重要地位,许多国际会议,如 MUC-6、MUC-7、 Conll2002 等,都将命名实体识别作为共享任务 (share tasks)。国内会议诸如全国语义网与知识图 谱计算大会 (CCKS 2017),也组织了医疗实体识别 的评测任务。传统命名实体识别采用最大熵、隐 马尔科夫模型、支持向量机、条件随机场等方法, 但传统机器学习方法需要人工定义特征模板,并 且无法充分获取隐含信息,对文本长距离依赖关 系难以捕捉。随着深度学习的快速发展以及卷积 神经网络 (convolutional neural network,CNN)、循 环神经网络 (recurrent neural network,RNN)、长短 期记忆网络 (long short-term memory ,LSTM) 等学 习算法的提出,命名实体识别任务在获取隐含信 息及捕捉长距离文字依赖关系上取得了长足的进 步。命名实体识别是典型的序列标注任务, RNN 可以很好地克服传统机器学习的文本长依 赖信息难以获取的缺点[1] ,具有一定的记忆功能, 但 RNN 在训练算法时存在梯度弥散和梯度爆炸 问题。因此,Hochreiter 等 [2] 提出了 LSTM 方法, LSTM 是一种特殊的循环神经网络,能够学习到 长期依赖关系,以解决 RNN 梯度消失和梯度爆炸 的问题。Yoon[3] 首次将 CNN 应用到自然语言处 理领域并获得成功后,由于其可以利用窗口滑 动,可以很好地解决词之间的组合特征及一部分 依赖问题,故广泛的应用在自然语言处理领域。 张海楠等[4] 提出了一种用于深度学习框架的字词 联合方法,结合字词特征,提高了系统性能,最终 取得了较好的 F1 值。Ma 等 [5] 提出了基于 LSTMCNN-CRFs 的端对端序列标注方法,该模型无需 数据预处理和特征选择,在 Conll2003语料库上 F1 值为 91.21%。Chiu 等 [6] 提出了 BiLSTM-CNNs 的新型网络框架,在 Conll2003 语料库取得 F1 值 为 91.61% 的成绩。姚霖等[7] 提出一种基于词边 界字向量的中文命名实体识别方法,在 Sighan Bakeoff-3 语料中取得了 F1 值 89.18% 的效果,上 述文献证明了深度学习神经网络用于序列标注任 务的可行性和有效性。 迁移学习[8] 是运用已有知识对不同但是相关 领域问题进行求解的一种新的机器学习方法。其 放宽了传统机器学习的两个基本假设,通过减小 源域与目标域的数据分布差异,从而从已有的知 识中解决目标领域中仅有少量或没有标签样本数 据的学习问题。Pan 等 [9] 提出了著名的迁移成分 分析 (transfer component analysis,TCA) 方法,针对 域适配 (domain adaptation) 问题中源域和目标域 处于不同数据分布,将 2 个领域的数据一起映射 到一个高维的再生核希尔伯特空间,并在此空间 中最小化源和目标的数据距离,同时最大程度地 保留它们各自的内部属性。Long 等 [10] 在 TCA 基 础上提出了联合分布适配方法 (joint distribution adaptation ,JDA),在源域和目标域条件分布不同 的基础上,提出了联合分布适配方法,同时适配 源域和目标域的边缘分布和条件分布,在 4 种类 型的跨域图像分类任务上取得了较好的效果。卞 则康等[11] 提出一种基于相似度学习的多源域迁 移 SL-MSTL 算法,增加对多源域与目标域之间的 相似度学习,可以有效地利用各源域中的有用信 息。庄福振[12] 介绍了迁移学习研究进展,并且针 对迁移学习领域所做的工作和未来的方向做了总 结和展望。 目前,已有命名实体识别方法在通用领域的 人名、地名、组织机构名上取得了较好的效果。 然而专业领域由于语料匮乏,导致领域命名实体 识别进展缓慢且识别效果差强人意。因此,本文 针对专业领域语料匮乏、标注语料缺失等特点, 引入迁移学习技术,构建基于深度学习的 BiLSTM-CNN-CRFs 网络模型,提出一种反馈式 K 近 邻语义迁移学习的领域命名实体识别算法。首 先,对专业领域语料和通用领域语料分别训练得 到语料文档向量,使用马哈拉诺比斯距离计算领 域语料与通用语料的语义相似性,针对每个专业 领域样本分别取 K 个语义最相似的通用领域样 本进行语义迁移学习,构建 N 个迁移语料集。然 后,使用 BiLSTM-CNN-CRFs 网络模型对 N 个迁 移语料集进行领域命名实体识别,并对识别结果 进行评估和前馈,根据反馈结果选取合适 的 K 值,作为语义迁移学习的最佳阈值。实验结果 表明,K 近邻语义迁移学习算法取得了较好的结 果,可以有效解决专业领域语料匮乏问题。 1 深度学习 BiLSTM-CNN-CRFs 网 络模型构建 本文利用 CNN 的词组合特点和 LSTM 的长 期依赖关系,结合 CRF 作为解码输出,构建一种 基于深度学习的 BiLSTM-CNN-CRFs 网络模型, 作为命名实体识别的学习算法。首先对文本的字 训练词向量,将词向量输入到 CNN 层,得到窗口 词组合特征,再进一步输入到 LSTM 层,LSTM 选 取分数最高的标签作为输出。但 LSTM 默认词之 间是独立分布的,并未考虑相邻词之间的相关性 及其约束性,对于序列标注任务,相邻词之间的 标签相关性直接影响句子的最佳标签链,所以在 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·821·
·822· 智能系统学报 第14卷 输出层使用条件随机场(CRF)进行联合建模以解 LSTM,BiLSTM)应运而生,其基本思想是将每个 码标签序列。 序列向前和向后呈现为两个单独的隐藏状态,分 1.1词向量 别捕获过去和未来的信息,然后将两个隐藏状态 自然语言理解的问题首先要转化成机器能够 链接形成最终输出。BiLSTM相较于LSTM识别 处理的问题,词向量(word Embedding)提供了一 效果更好,故本文使用BiLSTM作为一层网络。 种将文本表达映射到低维向量空间的方法,词向 由于BiLSTM仅对于标签之间的独立任务(如词 量解决了传统稀疏表示的“词汇沟鸿”缺点,通过 性标注)识别效果较好,而命名实体识别标签则 将词汇映射到一个新的低维空间,解决了维数灾 是互相关联的,故考虑在BiLSTM输出层加入 难问题,并且可以挖掘到词汇之间的关联属性, CRF层以增加约束,进行联合解码标签序列。 提高向量语义的准确度。针对专业领域语料容易 假设一个序列“中国包装网讯”及其序列标注 出现分词不准确,从而导致实体被错分出现无法 如表1所示。 识别的问题,本文不直接进行分词,采取训练字 表1词序列及其标注 Table 1 Word sequence and its annotation 符级别的词向量方法,词向量形式如下: w:=[yoV1…Vn] (1) 词(word 标签label) 式中:n为词向量维度。 中 B-ORG 1.2CNN层 国 1-ORG 卷积神经网络(CNN)通常用于字符级信息建 包 I-ORG 模等自然语言处理任务,本文使用CNN对输人字 装 I-ORG 的词向量利用窗口滑动将当前字与前后汉字连 网 I-ORG 接,计算前后字对当前字的影响,所生成的词表 讯 0 示词语特征。本文以“中国包装网讯”一词为例, 其CNN层结构如图1所示。卷积完成后提取出 将以上词序列的词向量输入BiLSTM-CRFs 字符与字符之间的上下文信息,生成词语和句子 网络,假设以上词序列的词向量为: 表示特征,再输入到下层神经网络中。 W=Wo WI W2 W3 W4 Ws (2) Padding 中 国 包 装 网 讯 Padding 将式(②)作为BiLSTM-CRFs的输入,如图2所示。 Word embedding B-ORG I-ORG L-ORG L-ORG LORG 】 层 CRF CRF CRE CRE CRF 卷积 Dropout B-ORG 15 03 025 02 005 0.05 最大池化层 I-■RG 0.8 0.s 0.4 0.5 0.25 0.35 0.03 0.13 0.05 0.09 0.15 0.5 词语表示 图1CNN层结构示意图 01 4 O. Fig.1 CNN layer structure diagram 1.3LSTM层与CRF层 图2 BiLSTM-CRFs网络结构 LSTM是一种特殊的循环神经网络(RNN), Fig.2 BiLSTM-CRFs network structure diagram 一个LSTM单元是由一个cell和输人门(input)、 由图2可知,BiLSTM输出每个字或词标签 输出门(output)、遗忘门(forget)组成。LSTM自提 的分数,以wo为例,BiLSTM输出得分B-ORG(1.5)、 出后,很多研究人员针对LSTM做了一系列优化 I-ORG(0.8)、O(0.03),但是在BiLSTM预测过程 改进工作,现已被应用于自然语言处理领域的各 中,如果出现句首I-ORG标签分数大于B-ORG的 个方面。LSTM的特性使得其只能获取到本单元 情况,此时BiLSTM会选择分数最高的I-ORG标 之前的所有单元的信息,但是无法获取此单元后 注在句首,而CRF层的加入可以为最终的预测标 的所有单元信息,因此双向LSTM(bi-directional 签添加一些限制,防止这种非法标签的出现。在
输出层使用条件随机场 (CRF) 进行联合建模以解 码标签序列。 1.1 词向量 自然语言理解的问题首先要转化成机器能够 处理的问题,词向量[13] (word Embedding) 提供了一 种将文本表达映射到低维向量空间的方法,词向 量解决了传统稀疏表示的“词汇沟鸿”缺点,通过 将词汇映射到一个新的低维空间,解决了维数灾 难问题,并且可以挖掘到词汇之间的关联属性, 提高向量语义的准确度。针对专业领域语料容易 出现分词不准确,从而导致实体被错分出现无法 识别的问题,本文不直接进行分词,采取训练字 符级别的词向量方法,词向量形式如下: wi = [v0 v1 ··· vn] (1) 式中:n为词向量维度。 1.2 CNN 层 卷积神经网络 (CNN) 通常用于字符级信息建 模等自然语言处理任务,本文使用 CNN 对输入字 的词向量利用窗口滑动将当前字与前后汉字连 接,计算前后字对当前字的影响,所生成的词表 示词语特征。本文以“中国包装网讯”一词为例, 其 CNN 层结构如图 1 所示。卷积完成后提取出 字符与字符之间的上下文信息,生成词语和句子 表示特征,再输入到下层神经网络中。 中 国 包 装 网 Word embedding 层 Padding Padding 卷积 Dropout 最大池化层 词语表示 讯 图 1 CNN 层结构示意图 Fig. 1 CNN layer structure diagram 1.3 LSTM 层与 CRF 层 LSTM 是一种特殊的循环神经网络 (RNN), 一个 LSTM 单元是由一个 cell 和输入门 (input)、 输出门 (output)、遗忘门 (forget) 组成。LSTM 自提 出后,很多研究人员针对 LSTM 做了一系列优化 改进工作,现已被应用于自然语言处理领域的各 个方面。LSTM 的特性使得其只能获取到本单元 之前的所有单元的信息,但是无法获取此单元后 的所有单元信息,因此双向 LSTM(bi-directional LSTM,BiLSTM) 应运而生,其基本思想是将每个 序列向前和向后呈现为两个单独的隐藏状态,分 别捕获过去和未来的信息,然后将两个隐藏状态 链接形成最终输出。BiLSTM 相较于 LSTM 识别 效果更好,故本文使用 BiLSTM 作为一层网络。 由于 BiLSTM 仅对于标签之间的独立任务 (如词 性标注) 识别效果较好,而命名实体识别标签则 是互相关联的,故考虑在 BiLSTM 输出层加入 CRF 层以增加约束,进行联合解码标签序列。 假设一个序列“中国包装网讯”及其序列标注 如表 1 所示。 表 1 词序列及其标注 Table 1 Word sequence and its annotation 词(word) 标签(label) 中 B-ORG 国 I-ORG 包 I-ORG 装 I-ORG 网 I-ORG 讯 O 将以上词序列的词向量输入 BiLSTM-CRFs 网络,假设以上词序列的词向量为: w = [w0 w1 w2 w3 w4 w5] (2) 将式 (2) 作为 BiLSTM-CRFs 的输入,如图 2 所示。 ω0 ω1 ω2 ω3 ω4 ω5 BiLSTM BiLSTM BiLSTM BiLSTM BiLSTM B-ORG I-ORG O 0.3 0.5 0.13 1.5 0.8 0.03 0.25 0.4 0.05 0.2 0.5 0.09 0.05 0.25 0.15 CRF CRF CRF CRF CRF B-ORG I-ORG I-ORG I-ORG I-ORG BiLSTM 0.05 0.35 0.5 CRF O 图 2 BiLSTM-CRFs 网络结构 Fig. 2 BiLSTM-CRFs network structure diagram w0 由图 2 可知,BiLSTM 输出每个字或词标签 的分数,以 为例,BiLSTM 输出得分 B-ORG(1.5)、 I-ORG(0.8)、O(0.03),但是在 BiLSTM 预测过程 中,如果出现句首 I-ORG 标签分数大于 B-ORG 的 情况,此时 BiLSTM 会选择分数最高的 I-ORG 标 注在句首,而 CRF 层的加入可以为最终的预测标 签添加一些限制,防止这种非法标签的出现。在 ·822· 智 能 系 统 学 报 第 14 卷
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·823· 训练过程中,这些约束可以由CRF层从训练数据 算机的普及与发展已产生大量的非结构化文本, 集中自动学习,从而得到句子的最佳序列标注。 但这些语料并未标注,导致专业领域文本训练语 1.4基于深度学习的BiLSTM-CNN-CRFs网络模型 料严重缺乏。而随着互联网行业与移动互联网的 本文构建的用于领域命名实体识别的基于深 发展,互联网上产生了海量的通用领域新闻文 度学习的BiLSTM-CNN-CRFs网络模型如图3所 本,且形成了成熟的标注语料库。而通用领域新 示。对于一个句子序列,将每个字的词向量输人 闻文本与专业领域新闻文本同属新闻语料,彼此 到CNN网络中,并在使用时对词向量进行微调 具有一定的相似性和数据同分布性,这为我们提 (fine tuning),采用CNN的窗口滑动功能得到词表 供了解决特定领域文本严重不足的思路。 示向量,然后将词表示向量与字的词向量馈送至 为了解决领域训练语料严重缺乏的现实,本 BiLSTM网络中,学习到句子序列标签的最高得 文应用迁移学习方法从通用新闻语料中得到与专 分(虚线表示引入Dropout层防止数据过拟合)。 业领域语料语义正相关的数据以扩充领域语料 最后BiLSTM输出的向量再馈送至CRF层, 集。应用迁移学习技术解决专业领域语料不足的 CRF通过从训练语料中自学习得到约束,对BiL 问题,面临的主要挑战如下:1)如何表达通用新 STM中的输出向量进行联合标签解码。在卷积 闻数据中的知识,以适配专业领域样本语义中的 过程和BiLSTM预测过程中引人Dropout:技术以 知识与分布,从而达到迁移目的:2)在解决1)中 防止过拟合现象。 问题的基础上,如何衡量通用新闻语料与领域新 闻语料的相似性;3)对于迁移的标准与质量应该 SIM CRF B-ORG 如何度量,何时达到迁移阈值,停止迁移,防止 “负迁移”出现。 针对上述挑战,本文提出一种反馈式K近邻 STM LSIM CRF I-ORG 语义迁移学习(feedback K-Nearest-neighbor semant- ic transfer learning,F-KNST)算法,并采用BiL STM I-ORG STM-CNN-CRFs深度学习网络模型,对领域实体 进行识别,其流程如图4所示。针对1),本文选用 STM STM I-ORG 文档向量(Doc2Vec)衡量通用新闻语料与领域语 料的语义差异性。Doc2Vec1是由Quoc Le和 Tomas Mikolov在Word2Vec的基础上提出的,文 STM STM CRF L-ORG 档向量充分利用了词向量和段落向量(paragraphs vectors),可以很好地预测文档之间的语义相似 STM STM CRF 性。针对2),本文提出一种使用马哈拉诺比斯距 离(马氏距离)的语义距离度量方法。传统欧氏 Word Char Farword Backword embedding representation LSTM LSTM CRF Lays Output 距离存在无法结合先验知识、同等看待样本等局 限性,在实际应用中常无法满足需求。马氏距离 图3基于深度学习的BiLSTM-CNN-CRFs网络模型 Fig.3 BiLSTM-CNN-CRFs network model based on deep 是由印度统计学家马哈拉诺比斯提出的,表示数 learning 据的协方差距离,它是一种有效的计算2个未知 样本集的相似度的方法,其协方差特性不仅可以 2反馈式K近邻语义迁移学习算法 结合数据的统计特性,还能兼顾到样本的相关 2.1问题描述 性。杨绪兵等已经通过证明和相关实验验证 传统机器学习假设训练数据与测试数据满足 了马氏距离相对于欧氏距离的优越性。针对3), 数据同分布,然而现实中的大量数据并不满足这 提出F-KNST算法,从1)和2)中得到通用新闻语 种同分布假设。随着深度学习的发展,对数据量 料与领域语料的语义向量距离作为迁移标准,从 的要求不断增大,现实中很难获取到如此大量的 通用新闻语料中获取K个与每篇特定领域语料 同分布数据集。在此背景下,迁移学习的提出, 最相近的文本,从而达到扩充领域语料集的目 为数据量不足的问题提供了新的解决思路。迁移 的。将扩充的语料集送入1.4节所述网络模型中 学习可以利用已有的数据迁移知识,用于帮助目 进行实体识别,由实体识别结果作为反馈不断修 标域中的学习问题。针对特定领域,虽然随着计 正K值,从而实现最佳迁移标准与质量
训练过程中,这些约束可以由 CRF 层从训练数据 集中自动学习,从而得到句子的最佳序列标注。 1.4 基于深度学习的 BiLSTM-CNN-CRFs 网络模型 本文构建的用于领域命名实体识别的基于深 度学习的 BiLSTM-CNN-CRFs 网络模型如图 3 所 示。对于一个句子序列,将每个字的词向量输入 到 CNN 网络中,并在使用时对词向量进行微调 (fine tuning),采用 CNN 的窗口滑动功能得到词表 示向量,然后将词表示向量与字的词向量馈送至 BiLSTM 网络中,学习到句子序列标签的最高得 分 (虚线表示引入 Dropout 层防止数据过拟合)。 最 后 BiLSTM 输出的向量再馈送 至 C RF 层 , CRF 通过从训练语料中自学习得到约束,对 BiLSTM 中的输出向量进行联合标签解码。在卷积 过程和 BiLSTM 预测过程中引入 Dropout 技术以 防止过拟合现象。 Char representation LSTM LSTM CRF CRF Lays 中 Output 国 LSTM LSTM CRF 包 LSTM LSTM CRF I-ORG 装 LSTM LSTM CRF I-ORG 网 Farword LSTM Word embedding Backword LSTM B-ORG I-ORG I-ORG 讯 LSTM LSTM CRF LSTM LSTM CRF O 图 3 基于深度学习的 BiLSTM-CNN-CRFs 网络模型 Fig. 3 BiLSTM-CNN-CRFs network model based on deep learning 2 反馈式 K 近邻语义迁移学习算法 2.1 问题描述 传统机器学习假设训练数据与测试数据满足 数据同分布,然而现实中的大量数据并不满足这 种同分布假设。随着深度学习的发展,对数据量 的要求不断增大,现实中很难获取到如此大量的 同分布数据集。在此背景下,迁移学习的提出, 为数据量不足的问题提供了新的解决思路。迁移 学习可以利用已有的数据迁移知识,用于帮助目 标域中的学习问题。针对特定领域,虽然随着计 算机的普及与发展已产生大量的非结构化文本, 但这些语料并未标注,导致专业领域文本训练语 料严重缺乏。而随着互联网行业与移动互联网的 发展,互联网上产生了海量的通用领域新闻文 本,且形成了成熟的标注语料库。而通用领域新 闻文本与专业领域新闻文本同属新闻语料,彼此 具有一定的相似性和数据同分布性,这为我们提 供了解决特定领域文本严重不足的思路。 为了解决领域训练语料严重缺乏的现实,本 文应用迁移学习方法从通用新闻语料中得到与专 业领域语料语义正相关的数据以扩充领域语料 集。应用迁移学习技术解决专业领域语料不足的 问题,面临的主要挑战如下:1) 如何表达通用新 闻数据中的知识,以适配专业领域样本语义中的 知识与分布,从而达到迁移目的;2) 在解决 1) 中 问题的基础上,如何衡量通用新闻语料与领域新 闻语料的相似性;3) 对于迁移的标准与质量应该 如何度量,何时达到迁移阈值,停止迁移,防止 “负迁移”出现。 针对上述挑战,本文提出一种反馈式 K 近邻 语义迁移学习 (feedback K-Nearest-neighbor semantic transfer learning,F-KNST) 算法,并采用 BiLSTM-CNN-CRFs 深度学习网络模型,对领域实体 进行识别,其流程如图 4 所示。针对 1),本文选用 文档向量 (Doc2Vec) 衡量通用新闻语料与领域语 料的语义差异性。Doc2Vec[14] 是由 Quoc Le 和 Tomas Mikolov 在 Word2Vec 的基础上提出的,文 档向量充分利用了词向量和段落向量 (paragraphs vectors),可以很好地预测文档之间的语义相似 性。针对 2),本文提出一种使用马哈拉诺比斯距 离 [15] (马氏距离) 的语义距离度量方法。传统欧氏 距离存在无法结合先验知识、同等看待样本等局 限性,在实际应用中常无法满足需求。马氏距离 是由印度统计学家马哈拉诺比斯提出的,表示数 据的协方差距离,它是一种有效的计算 2 个未知 样本集的相似度的方法,其协方差特性不仅可以 结合数据的统计特性,还能兼顾到样本的相关 性。杨绪兵等[16] 已经通过证明和相关实验验证 了马氏距离相对于欧氏距离的优越性。针对 3), 提出 F-KNST 算法,从 1) 和 2) 中得到通用新闻语 料与领域语料的语义向量距离作为迁移标准,从 通用新闻语料中获取 K 个与每篇特定领域语料 最相近的文本,从而达到扩充领域语料集的目 的。将扩充的语料集送入 1.4 节所述网络模型中 进行实体识别,由实体识别结果作为反馈不断修 正 K 值,从而实现最佳迁移标准与质量。 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·823·
·824· 智能系统学报 第14卷 通用新闻个 Doc2Vec 领域新闻 Doc2Vec 数据集 数据集 通用新闻数据 领域新闻数据 Doc2Vec集 Doc2Vec集 反馈 K近邻语义迁移适配 领域新闻数据 领域新闻数据 领域新闻数据 领域新闻数据 扩展集1 扩展集2 扩展集N1 扩展集N BiLSTM-CNN-CRFs 识别结果1 识别结果2 识别结果1 识别结果W 输出最佳识别结果 图4反馈式K近邻语义迁移学习的领域命名实体识别流程 Fig.4 F-KNST domain named entity recognition flowchart 2.2F-KNST算法实现 3)初始化k值: 通用新闻数据集(以下称源域)中存在许多可 4)dt)∈D(0)n,从D()n中获取目标域样本文档 以迁移到特定领域新闻数据集(以下称目标 向量dt): 域)的知识。由于目标域除了行业名词之外,与 5)d(s)eD(s)m,从D(s)m中获取源域样本文档 源域数据格式、报道措辞均相差不大,数据分布 向量d(s: 基本满足独立同分布。因此,从源域中获取与目 6)使用式(4)计算样本语义相似度距离 标域中语义相近的新闻语料以填充目标域可以更 Dist(du,d(s);针对每个目标域样本j,从源域提 加丰富目标域中数据分布特点,扩充目标域中语 取k个最相关的源域样本,加入到目标域数据扩展 义特征,使目标域在后续预训练和训练过程中获 集yem 取到足够的语义信息及类实体特征。 7)对ym中样本进行预处理,预训练,送入 1)马氏距离定义 BiLSTM+CNN+CRFs网络模型中训练,得到实体 设随机向量x∈R",来自分布X(XcR"),E∈R 识别结果; 与∑∈R"×"分别表示X的期望和协方差,{x:"是 8)更新k值,重复执行4)7),返回N组实体识 x的一组观测值,并且满足独立同分布条件。 别结果: 定义1设x为空间R的一个n维向量,Σ是 9)根据实体识别反馈的结果,选择识别结果 分布X的协方差,则称 最好的值,当k=时,即为最佳迁移样本数: xlly VxTE-x (3) 10)输出k=时的目标域数据扩展集yea 为此分布下x的M范数。 3实验与分析 定义2在M范数定义下,若x,yeR,则马 氏距离定义为: 为验证本文所提出算法的有效性,本文分别 d(x.y)=v(x-y)E-(x-y) (4) 以包装领域和医疗领域为例进行命名实体识别实验。 2)F-KNST算法描述 3.1包装领域命名实体识别 输入源域数据集X,目标域数据集X,样本 3.11数据准备 近邻数k: 中国包装网作为我国最大的包装行业专业网 输出目标域数据扩展集ym; 站,包含了大量的包装领域文本。本文从中国包 1)输入源域数据集X,目标域数据集X: 装网”上获取包装行业新闻作为实验数据构成 2)对X和X分别训练文档向量。得到源域向 迁移学习目标域样本,共计500篇。为保证源域 量集D(s)m,D(s)m={d(s),d(s2),…,dsm)l,目标域向 与目标域的样本分布,本文选取搜狗实验室的 量集D(0m,D(i)n={dt),dt2)…,d(tn); 全网新闻语料,通过xml解析并去除Html标签后
K 近邻语义迁移适配 领域新闻 数据集 Doc2Vec 领域新闻数据 Doc2Vec 集 通用新闻 数据集 Doc2Vec 通用新闻数据 Doc2Vec 集 领域新闻数据 扩展集 1 领域新闻数据 扩展集 2 领域新闻数据 扩展集 N-1 领域新闻数据 … 扩展集 N 识别结果 1 BiLSTM-CNN-CRFs 识别结果 2 … 识别结果 N-1 识别结果 N 反馈 输出最佳识别结果 图 4 反馈式 K 近邻语义迁移学习的领域命名实体识别流程 Fig. 4 F-KNST domain named entity recognition flowchart 2.2 F-KNST 算法实现 通用新闻数据集 (以下称源域) 中存在许多可 以迁移到特定领域新闻数据 集 (以下称目标 域) 的知识。由于目标域除了行业名词之外,与 源域数据格式、报道措辞均相差不大,数据分布 基本满足独立同分布。因此,从源域中获取与目 标域中语义相近的新闻语料以填充目标域可以更 加丰富目标域中数据分布特点,扩充目标域中语 义特征,使目标域在后续预训练和训练过程中获 取到足够的语义信息及类实体特征。 1) 马氏距离定义 ⊆ X {xi}1 n x 设随机向量 x∈R n ,来自分布 X(X R n ),E∈R n 与 Σ∈R n × n 分别表示 的期望和协方差, 是 的一组观测值,并且满足独立同分布条件。 定义 1 设 x 为空间 R n n 的一个 维向量,Σ 是 分布 X 的协方差,则称 ∥x∥M = √ x TΣ−1 x (3) 为此分布下 x 的 M 范数。 ∀x, y ∈ R 定义 d 2 在 M 范数定义下,若 ,则马 氏距离定义为: d(x, y) = √ (x−y)Σ−1 (x−y) (4) 2)F-KNST 算法描述 Xs Xt k 输入 源域数据集 ,目标域数据集 ,样本 近邻数 ; 输出 目标域数据扩展集 yext; 1) 输入源域数据集 Xs Xt ,目标域数据集 ; Xs Xt D(s)m D(s)m = {d(s1),d(s2),··· ,d(sm)} D(t)n D(t)n = {d(t1),d(t2),··· ,d(tn)} 2) 对 和 分别训练文档向量。得到源域向 量集 , ,目标域向 量集 , ; 3) 初始化 k 值; d(ti) ∈ D(t)n D(t)n d(ti) 4) ,从 中获取目标域样本文档 向量 ; d(sj) ∈ D(s)m D(s)m d(sj) 5) ,从 中获取源域样本文档 向量 ; Dist(d(ti),d(sj)) j k yext 6 ) 使 用 式 ( 4 ) 计算样本语义相似度距离 ;针对每个目标域样本 ,从源域提 取 个最相关的源域样本,加入到目标域数据扩展 集 ; 7) 对 yext 中样本进行预处理,预训练,送入 BiLSTM+CNN+CRFs 网络模型中训练,得到实体 识别结果; 8) 更新 k 值,重复执行 4)~7),返回 N 组实体识 别结果; ˜k k ˜k 9) 根据实体识别反馈的结果,选择识别结果 最好的 值,当 = 时,即为最佳迁移样本数; k ˜ 10) 输出 =k 时的目标域数据扩展集 yext。 3 实验与分析 为验证本文所提出算法的有效性,本文分别 以包装领域和医疗领域为例进行命名实体识别实验。 3.1 包装领域命名实体识别 3.1.1 数据准备 中国包装网作为我国最大的包装行业专业网 站,包含了大量的包装领域文本。本文从中国包 装网[17] 上获取包装行业新闻作为实验数据构成 迁移学习目标域样本,共计 500 篇。为保证源域 与目标域的样本分布,本文选取搜狗实验室[18] 的 全网新闻语料,通过 xml 解析并去除 Html 标签后 ·824· 智 能 系 统 学 报 第 14 卷