当前位置：和泉文库 > 电气与自动化 > 浏览文档

【自然语言处理与理解】反馈式iKi近邻语义迁移学习的领域命名实体识别

文件格式：PDF，文件大小：4.08MB，售价：4.28元

文档详细内容（约11页）

第14卷第4期智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201804013 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.tp.20190323.2251.002.html 反馈式K近邻语义迁移学习的领域命名实体识别朱艳辉2，李飞2，冀相冰2，曾志高2，徐啸2 (1.湖南工业大学计算机学院，湖南株洲412008：2.湖南省智能信息感知及处理技术重点实验室，湖南株洲 412008) 摘要：领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点，构建基于深度学习的BiLSTM-CNN-CRFs网络模型，并提出一种反馈式K近邻语义迁移学习的领域命名实体识别方法。首先，对专业领域语料和通用领域语料分别训练得到语料文档向量，使用马哈拉诺比斯距离计算领域语料与通用语料的语义相似性，针对每个专业领域样本分别取K个语义最相似的通用领域样本进行语义迁移学习，构建多个迁移语料集。然后，使用BiLSTM-CNN-CRFs网络模型对迁移语料集进行领域命名实体识别，并对识别结果进行评估和前馈，根据反馈结果选取合适的K值，作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进行实验验证，结果表明：本文方法取得了很好的识别效果，可以有效解决专业领域语料匮乏问题。关键词：领域命名实体识别：反馈式K近邻：语义迁移学习：深度学习：卷积神经网络：文档向量；马哈拉诺比斯距离：包装领域：医疗领域中图分类号：TP391文献标志码：A文章编号：1673-4785(201904-0820-11 中文引用格式：朱艳辉，李飞，冀相冰，等.反馈式K近邻语义迁移学习的领域命名实体识别.智能系统学报，2019,14(4)： 820-830. 英文引用格式：ZHU Yanhui,,LI Fei,,JI Xiangbing,etal.Domain-named entity recognition based on feedback K-nearest semantic transfer learning JI.CAAI transactions on intelligent systems,2019,14(4):820-830. Domain-named entity recognition based on feedback K-nearest semantic transfer learning ZHU Yanhui,LI Fei,JI Xiangbing,ZENG Zhigao2,XU Xiao2 (1.School of Computer,Hu'nan University of Technology,Zhuzhou 412008,China;2.Hu'nan Key Laboratory of Intelligent Inform- ation Perception and Processing Technology,Zhuzhou 412008,China) Abstract:Domain-named entity recognition is an important foundation in constructing domain knowledge maps.In view of the scarcity of such recognition,this paper constructs a BiLSTM-CNN-CRFs network model based on deep learning as well as proposes a domain-named entity recognition method based on feedback K-nearest-neighbor semantic transfer learning.First,the corpus of the professional field and the general field were trained to obtain the corpus docu- ment vector,and the semantic similarity between the corpus of a domain and the common corpus was calculated using the Mahalanobis distance calculation.For each specialized domain sample,K common domain samples with the most similar semantics were taken for semantic transfer learning,and several transfer corpus sets were constructed.Then,the BiLSTM-CNN-CRFs network model was used to identify domain-named entities in N migration corpuses and evaluate and feedforward the recognition results.An appropriate K value was selected as the best threshold for semantic transfer learning according to the feedback results.The packaging and medical fields were taken as examples for experimental verification.The results showed that the method proposed in this paper has a good recognition effect and can effectively solve the problem of lack of corpus in the field of specialization. Keywords:domain-named entity recognition;feedback K-nearest neighbor,semantic transfer learning;deep learning; CNN;Doc2Vec;Mahalanobis distance;packaging field;medical field 收稿日期：2018-04-10.网络出版日期：2019-03-25 命名实体识别(named entity recognition,.NER) 基金项目：国家自然科学基金项目(61402165)：湖南省教育厅重点项目(15A049):湖南工业大学重点项目(17ZBL- 作为信息抽取的子任务，是指将非结构化文本中 WT001KT006):湖南省研究生科研创新项目具有特定意义的实体抽取出来，对文本的结构化 (CX2017B688). 通信作者：李飞.E-mail:flytoskye@l63.com 起着至关重要的作用。由于其在自然语言处理中

DOI: 10.11992/tis.201804013 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190323.2251.002.html 反馈式 K 近邻语义迁移学习的领域命名实体识别朱艳辉1,2，李飞1,2，冀相冰1,2，曾志高1,2，徐啸1,2 （1. 湖南工业大学计算机学院，湖南株洲 412008; 2. 湖南省智能信息感知及处理技术重点实验室，湖南株洲 412008）摘要：领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点，构建基于深度学习的 BiLSTM-CNN-CRFs 网络模型，并提出一种反馈式 K 近邻语义迁移学习的领域命名实体识别方法。首先，对专业领域语料和通用领域语料分别训练得到语料文档向量，使用马哈拉诺比斯距离计算领域语料与通用语料的语义相似性，针对每个专业领域样本分别取 K 个语义最相似的通用领域样本进行语义迁移学习，构建多个迁移语料集。然后，使用 BiLSTM-CNN-CRFs 网络模型对迁移语料集进行领域命名实体识别，并对识别结果进行评估和前馈，根据反馈结果选取合适的 K 值，作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进行实验验证，结果表明：本文方法取得了很好的识别效果，可以有效解决专业领域语料匮乏问题。关键词：领域命名实体识别；反馈式 K 近邻；语义迁移学习；深度学习；卷积神经网络；文档向量；马哈拉诺比斯距离；包装领域；医疗领域中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2019)04−0820−11 中文引用格式：朱艳辉, 李飞, 冀相冰, 等. 反馈式 K 近邻语义迁移学习的领域命名实体识别 [J]. 智能系统学报, 2019, 14(4): 820–830. 英文引用格式：ZHU Yanhui, LI Fei, JI Xiangbing, et al. Domain-named entity recognition based on feedback K-nearest semantic transfer learning[J]. CAAI transactions on intelligent systems, 2019, 14(4): 820–830. Domain-named entity recognition based on feedback K-nearest semantic transfer learning ZHU Yanhui1,2 ，LI Fei1,2 ，JI Xiangbing1,2 ，ZENG Zhigao1,2 ，XU Xiao1,2 (1. School of Computer, Hu’nan University of Technology, Zhuzhou 412008, China; 2. Hu’nan Key Laboratory of Intelligent Information Perception and Processing Technology, Zhuzhou 412008, China) Abstract: Domain-named entity recognition is an important foundation in constructing domain knowledge maps. In view of the scarcity of such recognition, this paper constructs a BiLSTM-CNN-CRFs network model based on deep learning as well as proposes a domain-named entity recognition method based on feedback K-nearest-neighbor semantic transfer learning. First, the corpus of the professional field and the general field were trained to obtain the corpus document vector, and the semantic similarity between the corpus of a domain and the common corpus was calculated using the Mahalanobis distance calculation. For each specialized domain sample, K common domain samples with the most similar semantics were taken for semantic transfer learning, and several transfer corpus sets were constructed. Then, the BiLSTM-CNN-CRFs network model was used to identify domain-named entities in N migration corpuses and evaluate and feedforward the recognition results. An appropriate K value was selected as the best threshold for semantic transfer learning according to the feedback results. The packaging and medical fields were taken as examples for experimental verification. The results showed that the method proposed in this paper has a good recognition effect and can effectively solve the problem of lack of corpus in the field of specialization. Keywords: domain-named entity recognition; feedback K-nearest neighbor; semantic transfer learning; deep learning; CNN; Doc2Vec; Mahalanobis distance; packaging field; medical field 命名实体识别 (named entity recognition，NER) 作为信息抽取的子任务，是指将非结构化文本中具有特定意义的实体抽取出来，对文本的结构化起着至关重要的作用。由于其在自然语言处理中收稿日期：2018−04−10. 网络出版日期：2019−03−25. 基金项目：国家自然科学基金项目 (61402165)；湖南省教育厅重点项目 (15A049)；湖南工业大学重点项目 (17ZBLWT001KT006) ；湖南省研究生科研创新项目 (CX2017B688). 通信作者：李飞. E-mail: flytoskye@163.com. 第 14 卷第 4 期智能系统学报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019

第4期朱艳辉，等：反馈式K近邻语义迁移学习的领域命名实体识别 ·821· 的重要地位，许多国际会议，如MUC-6、MUC-7、到一个高维的再生核希尔伯特空间，并在此空间 Conll22002等，都将命名实体识别作为共享任务中最小化源和目标的数据距离，同时最大程度地 (share tasks)。国内会议诸如全国语义网与知识图保留它们各自的内部属性。Long等o在TCA基谱计算大会(CCKS2017),也组织了医疗实体识别础上提出了联合分布适配方法(joint distribution 的评测任务。传统命名实体识别采用最大熵、隐 adaptation,JDA),在源域和目标域条件分布不同马尔科夫模型、支持向量机、条件随机场等方法，的基础上，提出了联合分布适配方法，同时适配但传统机器学习方法需要人工定义特征模板，并源域和目标域的边缘分布和条件分布，在4种类且无法充分获取隐含信息，对文本长距离依赖关型的跨域图像分类任务上取得了较好的效果。卞系难以捕捉。随着深度学习的快速发展以及卷积则康等川提出一种基于相似度学习的多源域迁神经网络(convolutional neural network,CNN)、循移SL-MSTL算法，增加对多源域与目标域之间的环神经网络(recurrent neural network,RNN)、长短相似度学习，可以有效地利用各源域中的有用信期记忆网络(long short-.term memory,LSTM)等学息。庄福振介绍了迁移学习研究进展，并且针习算法的提出，命名实体识别任务在获取隐含信对迁移学习领域所做的工作和未来的方向做了总息及捕捉长距离文字依赖关系上取得了长足的进结和展望。步。命名实体识别是典型的序列标注任务，目前，已有命名实体识别方法在通用领域的 RNN可以很好地克服传统机器学习的文本长依人名、地名、组织机构名上取得了较好的效果。赖信息难以获取的缺点山，具有一定的记忆功能，然而专业领域由于语料匮乏，导致领域命名实体但RNN在训练算法时存在梯度弥散和梯度爆炸识别进展缓慢且识别效果差强人意。因此，本文问题。因此，Hochreiter等提出了LSTM方法，针对专业领域语料匮乏、标注语料缺失等特点， LSTM是一种特殊的循环神经网络，能够学习到引入迁移学习技术，构建基于深度学习的BL- 长期依赖关系，以解决RNN梯度消失和梯度爆炸 STM-CNN-CRFs网络模型，提出一种反馈式K近的问题。Yoon)首次将CNN应用到自然语言处邻语义迁移学习的领域命名实体识别算法。首理领域并获得成功后，由于其可以利用窗口滑先，对专业领域语料和通用领域语料分别训练得动，可以很好地解决词之间的组合特征及一部分到语料文档向量，使用马哈拉诺比斯距离计算领依赖问题，故广泛的应用在自然语言处理领域。域语料与通用语料的语义相似性，针对每个专业张海楠等提出了一种用于深度学习框架的字词领域样本分别取K个语义最相似的通用领域样联合方法，结合字词特征，提高了系统性能，最终本进行语义迁移学习，构建N个迁移语料集。然取得了较好的F,值。Ma等提出了基于LSTM: 后，使用BiLSTM-CNN-CRFs网络模型对N个迁 CNN-CRFs的端对端序列标注方法，该模型无需移语料集进行领域命名实体识别，并对识别结果数据预处理和特征选择，在Conll2003语料库上进行评估和前馈，根据反馈结果选取合适的 F,值为91.21%。Chiu等提出了BiLSTM-CNNs K值，作为语义迁移学习的最佳阈值。实验结果的新型网络框架，在Coll2003语料库取得F,值表明，K近邻语义迁移学习算法取得了较好的结为91.61%的成绩。姚霖等m提出一种基于词边果，可以有效解决专业领域语料匮乏问题。界字向量的中文命名实体识别方法，在Sighan 深度学习BiLSTM-CNN-CRFs网 Bakeoff-.3语料中取得了F,值89.18%的效果，上络模型构建述文献证明了深度学习神经网络用于序列标注任务的可行性和有效性。本文利用CNN的词组合特点和LSTM的长迁移学习图是运用已有知识对不同但是相关期依赖关系，结合CRF作为解码输出，构建一种领域问题进行求解的一种新的机器学习方法。其基于深度学习的BiLSTM-CNN-CRFs网络模型，放宽了传统机器学习的两个基本假设，通过减小作为命名实体识别的学习算法。首先对文本的字源域与目标域的数据分布差异，从而从已有的知训练词向量，将词向量输入到CNN层，得到窗口识中解决目标领域中仅有少量或没有标签样本数词组合特征，再进一步输人到LSTM层，LSTM选据的学习问题。Pan等提出了著名的迁移成分取分数最高的标签作为输出。但LSTM默认词之分析(transfer component analysis,TCA)方法，针对间是独立分布的，并未考虑相邻词之间的相关性域适配(domain adaptation)问题中源域和目标域及其约束性，对于序列标注任务，相邻词之间的处于不同数据分布，将2个领域的数据一起映射标签相关性直接影响句子的最佳标签链，所以在

的重要地位，许多国际会议，如 MUC-6、MUC-7、 Conll2002 等，都将命名实体识别作为共享任务 (share tasks)。国内会议诸如全国语义网与知识图谱计算大会 (CCKS 2017)，也组织了医疗实体识别的评测任务。传统命名实体识别采用最大熵、隐马尔科夫模型、支持向量机、条件随机场等方法，但传统机器学习方法需要人工定义特征模板，并且无法充分获取隐含信息，对文本长距离依赖关系难以捕捉。随着深度学习的快速发展以及卷积神经网络 (convolutional neural network，CNN)、循环神经网络 (recurrent neural network，RNN)、长短期记忆网络 (long short-term memory ，LSTM) 等学习算法的提出，命名实体识别任务在获取隐含信息及捕捉长距离文字依赖关系上取得了长足的进步。命名实体识别是典型的序列标注任务， RNN 可以很好地克服传统机器学习的文本长依赖信息难以获取的缺点[1] ，具有一定的记忆功能，但 RNN 在训练算法时存在梯度弥散和梯度爆炸问题。因此，Hochreiter 等 [2] 提出了 LSTM 方法， LSTM 是一种特殊的循环神经网络，能够学习到长期依赖关系，以解决 RNN 梯度消失和梯度爆炸的问题。Yoon[3] 首次将 CNN 应用到自然语言处理领域并获得成功后，由于其可以利用窗口滑动，可以很好地解决词之间的组合特征及一部分依赖问题，故广泛的应用在自然语言处理领域。张海楠等[4] 提出了一种用于深度学习框架的字词联合方法，结合字词特征，提高了系统性能，最终取得了较好的 F1 值。Ma 等 [5] 提出了基于 LSTMCNN-CRFs 的端对端序列标注方法，该模型无需数据预处理和特征选择，在 Conll2003语料库上 F1 值为 91.21%。Chiu 等 [6] 提出了 BiLSTM-CNNs 的新型网络框架，在 Conll2003 语料库取得 F1 值为 91.61% 的成绩。姚霖等[7] 提出一种基于词边界字向量的中文命名实体识别方法，在 Sighan Bakeoff-3 语料中取得了 F1 值 89.18% 的效果，上述文献证明了深度学习神经网络用于序列标注任务的可行性和有效性。迁移学习[8] 是运用已有知识对不同但是相关领域问题进行求解的一种新的机器学习方法。其放宽了传统机器学习的两个基本假设，通过减小源域与目标域的数据分布差异，从而从已有的知识中解决目标领域中仅有少量或没有标签样本数据的学习问题。Pan 等 [9] 提出了著名的迁移成分分析 (transfer component analysis，TCA) 方法，针对域适配 (domain adaptation) 问题中源域和目标域处于不同数据分布，将 2 个领域的数据一起映射到一个高维的再生核希尔伯特空间，并在此空间中最小化源和目标的数据距离，同时最大程度地保留它们各自的内部属性。Long 等 [10] 在 TCA 基础上提出了联合分布适配方法 (joint distribution adaptation ,JDA)，在源域和目标域条件分布不同的基础上，提出了联合分布适配方法，同时适配源域和目标域的边缘分布和条件分布，在 4 种类型的跨域图像分类任务上取得了较好的效果。卞则康等[11] 提出一种基于相似度学习的多源域迁移 SL-MSTL 算法，增加对多源域与目标域之间的相似度学习,可以有效地利用各源域中的有用信息。庄福振[12] 介绍了迁移学习研究进展，并且针对迁移学习领域所做的工作和未来的方向做了总结和展望。目前，已有命名实体识别方法在通用领域的人名、地名、组织机构名上取得了较好的效果。然而专业领域由于语料匮乏，导致领域命名实体识别进展缓慢且识别效果差强人意。因此，本文针对专业领域语料匮乏、标注语料缺失等特点，引入迁移学习技术，构建基于深度学习的 BiLSTM-CNN-CRFs 网络模型，提出一种反馈式 K 近邻语义迁移学习的领域命名实体识别算法。首先，对专业领域语料和通用领域语料分别训练得到语料文档向量，使用马哈拉诺比斯距离计算领域语料与通用语料的语义相似性，针对每个专业领域样本分别取 K 个语义最相似的通用领域样本进行语义迁移学习，构建 N 个迁移语料集。然后，使用 BiLSTM-CNN-CRFs 网络模型对 N 个迁移语料集进行领域命名实体识别，并对识别结果进行评估和前馈，根据反馈结果选取合适的 K 值，作为语义迁移学习的最佳阈值。实验结果表明，K 近邻语义迁移学习算法取得了较好的结果，可以有效解决专业领域语料匮乏问题。 1 深度学习 BiLSTM-CNN-CRFs 网络模型构建本文利用 CNN 的词组合特点和 LSTM 的长期依赖关系，结合 CRF 作为解码输出，构建一种基于深度学习的 BiLSTM-CNN-CRFs 网络模型，作为命名实体识别的学习算法。首先对文本的字训练词向量，将词向量输入到 CNN 层，得到窗口词组合特征，再进一步输入到 LSTM 层，LSTM 选取分数最高的标签作为输出。但 LSTM 默认词之间是独立分布的，并未考虑相邻词之间的相关性及其约束性，对于序列标注任务，相邻词之间的标签相关性直接影响句子的最佳标签链，所以在第 4 期朱艳辉，等：反馈式 K 近邻语义迁移学习的领域命名实体识别 ·821·

·822· 智能系统学报第14卷输出层使用条件随机场(CRF)进行联合建模以解 LSTM,BiLSTM)应运而生，其基本思想是将每个码标签序列。序列向前和向后呈现为两个单独的隐藏状态，分 1.1词向量别捕获过去和未来的信息，然后将两个隐藏状态自然语言理解的问题首先要转化成机器能够链接形成最终输出。BiLSTM相较于LSTM识别处理的问题，词向量(word Embedding)提供了一效果更好，故本文使用BiLSTM作为一层网络。种将文本表达映射到低维向量空间的方法，词向由于BiLSTM仅对于标签之间的独立任务（如词量解决了传统稀疏表示的“词汇沟鸿”缺点，通过性标注)识别效果较好，而命名实体识别标签则将词汇映射到一个新的低维空间，解决了维数灾是互相关联的，故考虑在BiLSTM输出层加入难问题，并且可以挖掘到词汇之间的关联属性， CRF层以增加约束，进行联合解码标签序列。提高向量语义的准确度。针对专业领域语料容易假设一个序列“中国包装网讯”及其序列标注出现分词不准确，从而导致实体被错分出现无法如表1所示。识别的问题，本文不直接进行分词，采取训练字表1词序列及其标注 Table 1 Word sequence and its annotation 符级别的词向量方法，词向量形式如下： w:=[yoV1…Vn] (1) 词(word 标签label) 式中：n为词向量维度。中 B-ORG 1.2CNN层国 1-ORG 卷积神经网络(CNN)通常用于字符级信息建包 I-ORG 模等自然语言处理任务，本文使用CNN对输人字装 I-ORG 的词向量利用窗口滑动将当前字与前后汉字连网 I-ORG 接，计算前后字对当前字的影响，所生成的词表讯 0 示词语特征。本文以“中国包装网讯”一词为例，其CNN层结构如图1所示。卷积完成后提取出将以上词序列的词向量输入BiLSTM-CRFs 字符与字符之间的上下文信息，生成词语和句子网络，假设以上词序列的词向量为：表示特征，再输入到下层神经网络中。 W=Wo WI W2 W3 W4 Ws (2) Padding 中国包装网讯 Padding 将式（②）作为BiLSTM-CRFs的输入，如图2所示。 Word embedding B-ORG I-ORG L-ORG L-ORG LORG 】层 CRF CRF CRE CRE CRF 卷积 Dropout B-ORG 15 03 025 02 005 0.05 最大池化层 I-■RG 0.8 0.s 0.4 0.5 0.25 0.35 0.03 0.13 0.05 0.09 0.15 0.5 词语表示图1CNN层结构示意图 01 4 O. Fig.1 CNN layer structure diagram 1.3LSTM层与CRF层图2 BiLSTM-CRFs网络结构 LSTM是一种特殊的循环神经网络(RNN), Fig.2 BiLSTM-CRFs network structure diagram 一个LSTM单元是由一个cell和输人门(input)、由图2可知，BiLSTM输出每个字或词标签输出门(output)、遗忘门(forget)组成。LSTM自提的分数，以wo为例，BiLSTM输出得分B-ORG(1.5)、出后，很多研究人员针对LSTM做了一系列优化 I-ORG(0.8)、O(0.03),但是在BiLSTM预测过程改进工作，现已被应用于自然语言处理领域的各中，如果出现句首I-ORG标签分数大于B-ORG的个方面。LSTM的特性使得其只能获取到本单元情况，此时BiLSTM会选择分数最高的I-ORG标之前的所有单元的信息，但是无法获取此单元后注在句首，而CRF层的加入可以为最终的预测标的所有单元信息，因此双向LSTM(bi-directional 签添加一些限制，防止这种非法标签的出现。在

输出层使用条件随机场 (CRF) 进行联合建模以解码标签序列。 1.1 词向量自然语言理解的问题首先要转化成机器能够处理的问题，词向量[13] (word Embedding) 提供了一种将文本表达映射到低维向量空间的方法，词向量解决了传统稀疏表示的“词汇沟鸿”缺点，通过将词汇映射到一个新的低维空间，解决了维数灾难问题，并且可以挖掘到词汇之间的关联属性，提高向量语义的准确度。针对专业领域语料容易出现分词不准确，从而导致实体被错分出现无法识别的问题，本文不直接进行分词，采取训练字符级别的词向量方法，词向量形式如下： wi = [v0 v1 ··· vn] (1) 式中：n为词向量维度。 1.2 CNN 层卷积神经网络 (CNN) 通常用于字符级信息建模等自然语言处理任务，本文使用 CNN 对输入字的词向量利用窗口滑动将当前字与前后汉字连接，计算前后字对当前字的影响，所生成的词表示词语特征。本文以“中国包装网讯”一词为例，其 CNN 层结构如图 1 所示。卷积完成后提取出字符与字符之间的上下文信息，生成词语和句子表示特征，再输入到下层神经网络中。中国包装网 Word embedding 层 Padding Padding 卷积 Dropout 最大池化层词语表示讯图 1 CNN 层结构示意图 Fig. 1 CNN layer structure diagram 1.3 LSTM 层与 CRF 层 LSTM 是一种特殊的循环神经网络 (RNN)，一个 LSTM 单元是由一个 cell 和输入门 (input)、输出门 (output)、遗忘门 (forget) 组成。LSTM 自提出后，很多研究人员针对 LSTM 做了一系列优化改进工作，现已被应用于自然语言处理领域的各个方面。LSTM 的特性使得其只能获取到本单元之前的所有单元的信息，但是无法获取此单元后的所有单元信息，因此双向 LSTM(bi-directional LSTM，BiLSTM) 应运而生，其基本思想是将每个序列向前和向后呈现为两个单独的隐藏状态，分别捕获过去和未来的信息，然后将两个隐藏状态链接形成最终输出。BiLSTM 相较于 LSTM 识别效果更好，故本文使用 BiLSTM 作为一层网络。由于 BiLSTM 仅对于标签之间的独立任务 (如词性标注) 识别效果较好，而命名实体识别标签则是互相关联的，故考虑在 BiLSTM 输出层加入 CRF 层以增加约束，进行联合解码标签序列。假设一个序列“中国包装网讯”及其序列标注如表 1 所示。表 1 词序列及其标注 Table 1 Word sequence and its annotation 词(word) 标签(label) 中 B-ORG 国 I-ORG 包 I-ORG 装 I-ORG 网 I-ORG 讯 O 将以上词序列的词向量输入 BiLSTM-CRFs 网络，假设以上词序列的词向量为： w = [w0 w1 w2 w3 w4 w5] (2) 将式 (2) 作为 BiLSTM-CRFs 的输入，如图 2 所示。 ω0 ω1 ω2 ω3 ω4 ω5 BiLSTM BiLSTM BiLSTM BiLSTM BiLSTM B-ORG I-ORG O 0.3 0.5 0.13 1.5 0.8 0.03 0.25 0.4 0.05 0.2 0.5 0.09 0.05 0.25 0.15 CRF CRF CRF CRF CRF B-ORG I-ORG I-ORG I-ORG I-ORG BiLSTM 0.05 0.35 0.5 CRF O 图 2 BiLSTM-CRFs 网络结构 Fig. 2 BiLSTM-CRFs network structure diagram w0 由图 2 可知，BiLSTM 输出每个字或词标签的分数，以为例，BiLSTM 输出得分 B-ORG(1.5)、 I-ORG(0.8)、O(0.03)，但是在 BiLSTM 预测过程中，如果出现句首 I-ORG 标签分数大于 B-ORG 的情况，此时 BiLSTM 会选择分数最高的 I-ORG 标注在句首，而 CRF 层的加入可以为最终的预测标签添加一些限制，防止这种非法标签的出现。在 ·822· 智能系统学报第 14 卷

第4期朱艳辉，等：反馈式K近邻语义迁移学习的领域命名实体识别 ·823· 训练过程中，这些约束可以由CRF层从训练数据算机的普及与发展已产生大量的非结构化文本，集中自动学习，从而得到句子的最佳序列标注。但这些语料并未标注，导致专业领域文本训练语 1.4基于深度学习的BiLSTM-CNN-CRFs网络模型料严重缺乏。而随着互联网行业与移动互联网的本文构建的用于领域命名实体识别的基于深发展，互联网上产生了海量的通用领域新闻文度学习的BiLSTM-CNN-CRFs网络模型如图3所本，且形成了成熟的标注语料库。而通用领域新示。对于一个句子序列，将每个字的词向量输人闻文本与专业领域新闻文本同属新闻语料，彼此到CNN网络中，并在使用时对词向量进行微调具有一定的相似性和数据同分布性，这为我们提 (fine tuning),采用CNN的窗口滑动功能得到词表供了解决特定领域文本严重不足的思路。示向量，然后将词表示向量与字的词向量馈送至为了解决领域训练语料严重缺乏的现实，本 BiLSTM网络中，学习到句子序列标签的最高得文应用迁移学习方法从通用新闻语料中得到与专分（虚线表示引入Dropout层防止数据过拟合）。业领域语料语义正相关的数据以扩充领域语料最后BiLSTM输出的向量再馈送至CRF层，集。应用迁移学习技术解决专业领域语料不足的 CRF通过从训练语料中自学习得到约束，对BiL 问题，面临的主要挑战如下：1)如何表达通用新 STM中的输出向量进行联合标签解码。在卷积闻数据中的知识，以适配专业领域样本语义中的过程和BiLSTM预测过程中引人Dropout:技术以知识与分布，从而达到迁移目的：2)在解决1)中防止过拟合现象。问题的基础上，如何衡量通用新闻语料与领域新闻语料的相似性；3)对于迁移的标准与质量应该 SIM CRF B-ORG 如何度量，何时达到迁移阈值，停止迁移，防止 “负迁移”出现。针对上述挑战，本文提出一种反馈式K近邻 STM LSIM CRF I-ORG 语义迁移学习(feedback K-Nearest-neighbor semant- ic transfer learning,F-KNST)算法，并采用BiL STM I-ORG STM-CNN-CRFs深度学习网络模型，对领域实体进行识别，其流程如图4所示。针对1)，本文选用 STM STM I-ORG 文档向量(Doc2Vec)衡量通用新闻语料与领域语料的语义差异性。Doc2Vec1是由Quoc Le和 Tomas Mikolov在Word2Vec的基础上提出的，文 STM STM CRF L-ORG 档向量充分利用了词向量和段落向量(paragraphs vectors),可以很好地预测文档之间的语义相似 STM STM CRF 性。针对2)，本文提出一种使用马哈拉诺比斯距离（马氏距离）的语义距离度量方法。传统欧氏 Word Char Farword Backword embedding representation LSTM LSTM CRF Lays Output 距离存在无法结合先验知识、同等看待样本等局限性，在实际应用中常无法满足需求。马氏距离图3基于深度学习的BiLSTM-CNN-CRFs网络模型 Fig.3 BiLSTM-CNN-CRFs network model based on deep 是由印度统计学家马哈拉诺比斯提出的，表示数 learning 据的协方差距离，它是一种有效的计算2个未知样本集的相似度的方法，其协方差特性不仅可以 2反馈式K近邻语义迁移学习算法结合数据的统计特性，还能兼顾到样本的相关 2.1问题描述性。杨绪兵等已经通过证明和相关实验验证传统机器学习假设训练数据与测试数据满足了马氏距离相对于欧氏距离的优越性。针对3)，数据同分布，然而现实中的大量数据并不满足这提出F-KNST算法，从1)和2)中得到通用新闻语种同分布假设。随着深度学习的发展，对数据量料与领域语料的语义向量距离作为迁移标准，从的要求不断增大，现实中很难获取到如此大量的通用新闻语料中获取K个与每篇特定领域语料同分布数据集。在此背景下，迁移学习的提出，最相近的文本，从而达到扩充领域语料集的目为数据量不足的问题提供了新的解决思路。迁移的。将扩充的语料集送入1.4节所述网络模型中学习可以利用已有的数据迁移知识，用于帮助目进行实体识别，由实体识别结果作为反馈不断修标域中的学习问题。针对特定领域，虽然随着计正K值，从而实现最佳迁移标准与质量

训练过程中，这些约束可以由 CRF 层从训练数据集中自动学习，从而得到句子的最佳序列标注。 1.4 基于深度学习的 BiLSTM-CNN-CRFs 网络模型本文构建的用于领域命名实体识别的基于深度学习的 BiLSTM-CNN-CRFs 网络模型如图 3 所示。对于一个句子序列，将每个字的词向量输入到 CNN 网络中，并在使用时对词向量进行微调 (fine tuning)，采用 CNN 的窗口滑动功能得到词表示向量，然后将词表示向量与字的词向量馈送至 BiLSTM 网络中，学习到句子序列标签的最高得分 (虚线表示引入 Dropout 层防止数据过拟合)。最后 BiLSTM 输出的向量再馈送至 C RF 层， CRF 通过从训练语料中自学习得到约束，对 BiLSTM 中的输出向量进行联合标签解码。在卷积过程和 BiLSTM 预测过程中引入 Dropout 技术以防止过拟合现象。 Char representation LSTM LSTM CRF CRF Lays 中 Output 国 LSTM LSTM CRF 包 LSTM LSTM CRF I-ORG 装 LSTM LSTM CRF I-ORG 网 Farword LSTM Word embedding Backword LSTM B-ORG I-ORG I-ORG 讯 LSTM LSTM CRF LSTM LSTM CRF O 图 3 基于深度学习的 BiLSTM-CNN-CRFs 网络模型 Fig. 3 BiLSTM-CNN-CRFs network model based on deep learning 2 反馈式 K 近邻语义迁移学习算法 2.1 问题描述传统机器学习假设训练数据与测试数据满足数据同分布，然而现实中的大量数据并不满足这种同分布假设。随着深度学习的发展，对数据量的要求不断增大，现实中很难获取到如此大量的同分布数据集。在此背景下，迁移学习的提出，为数据量不足的问题提供了新的解决思路。迁移学习可以利用已有的数据迁移知识，用于帮助目标域中的学习问题。针对特定领域，虽然随着计算机的普及与发展已产生大量的非结构化文本，但这些语料并未标注，导致专业领域文本训练语料严重缺乏。而随着互联网行业与移动互联网的发展，互联网上产生了海量的通用领域新闻文本，且形成了成熟的标注语料库。而通用领域新闻文本与专业领域新闻文本同属新闻语料，彼此具有一定的相似性和数据同分布性，这为我们提供了解决特定领域文本严重不足的思路。为了解决领域训练语料严重缺乏的现实，本文应用迁移学习方法从通用新闻语料中得到与专业领域语料语义正相关的数据以扩充领域语料集。应用迁移学习技术解决专业领域语料不足的问题，面临的主要挑战如下：1) 如何表达通用新闻数据中的知识，以适配专业领域样本语义中的知识与分布，从而达到迁移目的；2) 在解决 1) 中问题的基础上，如何衡量通用新闻语料与领域新闻语料的相似性；3) 对于迁移的标准与质量应该如何度量，何时达到迁移阈值，停止迁移，防止 “负迁移”出现。针对上述挑战，本文提出一种反馈式 K 近邻语义迁移学习 (feedback K-Nearest-neighbor semantic transfer learning，F-KNST) 算法，并采用 BiLSTM-CNN-CRFs 深度学习网络模型，对领域实体进行识别，其流程如图 4 所示。针对 1)，本文选用文档向量 (Doc2Vec) 衡量通用新闻语料与领域语料的语义差异性。Doc2Vec[14] 是由 Quoc Le 和 Tomas Mikolov 在 Word2Vec 的基础上提出的，文档向量充分利用了词向量和段落向量 (paragraphs vectors)，可以很好地预测文档之间的语义相似性。针对 2)，本文提出一种使用马哈拉诺比斯距离 [15] (马氏距离) 的语义距离度量方法。传统欧氏距离存在无法结合先验知识、同等看待样本等局限性，在实际应用中常无法满足需求。马氏距离是由印度统计学家马哈拉诺比斯提出的，表示数据的协方差距离，它是一种有效的计算 2 个未知样本集的相似度的方法，其协方差特性不仅可以结合数据的统计特性，还能兼顾到样本的相关性。杨绪兵等[16] 已经通过证明和相关实验验证了马氏距离相对于欧氏距离的优越性。针对 3)，提出 F-KNST 算法，从 1) 和 2) 中得到通用新闻语料与领域语料的语义向量距离作为迁移标准，从通用新闻语料中获取 K 个与每篇特定领域语料最相近的文本，从而达到扩充领域语料集的目的。将扩充的语料集送入 1.4 节所述网络模型中进行实体识别，由实体识别结果作为反馈不断修正 K 值，从而实现最佳迁移标准与质量。第 4 期朱艳辉，等：反馈式 K 近邻语义迁移学习的领域命名实体识别 ·823·

·824· 智能系统学报第14卷通用新闻个 Doc2Vec 领域新闻 Doc2Vec 数据集数据集通用新闻数据领域新闻数据 Doc2Vec集 Doc2Vec集反馈 K近邻语义迁移适配领域新闻数据领域新闻数据领域新闻数据领域新闻数据扩展集1 扩展集2 扩展集N1 扩展集N BiLSTM-CNN-CRFs 识别结果1 识别结果2 识别结果1 识别结果W 输出最佳识别结果图4反馈式K近邻语义迁移学习的领域命名实体识别流程 Fig.4 F-KNST domain named entity recognition flowchart 2.2F-KNST算法实现 3)初始化k值：通用新闻数据集（以下称源域）中存在许多可 4)dt)∈D(0)n,从D()n中获取目标域样本文档以迁移到特定领域新闻数据集（以下称目标向量dt): 域)的知识。由于目标域除了行业名词之外，与 5)d(s)eD(s)m,从D(s)m中获取源域样本文档源域数据格式、报道措辞均相差不大，数据分布向量d(s: 基本满足独立同分布。因此，从源域中获取与目 6)使用式(4)计算样本语义相似度距离标域中语义相近的新闻语料以填充目标域可以更 Dist(du,d(s);针对每个目标域样本j,从源域提加丰富目标域中数据分布特点，扩充目标域中语取k个最相关的源域样本，加入到目标域数据扩展义特征，使目标域在后续预训练和训练过程中获集yem 取到足够的语义信息及类实体特征。 7)对ym中样本进行预处理，预训练，送入 1)马氏距离定义 BiLSTM+CNN+CRFs网络模型中训练，得到实体设随机向量x∈R",来自分布X(XcR"),E∈R 识别结果；与∑∈R"×"分别表示X的期望和协方差，{x:"是 8)更新k值，重复执行4)7)，返回N组实体识 x的一组观测值，并且满足独立同分布条件。别结果：定义1设x为空间R的一个n维向量，Σ是 9)根据实体识别反馈的结果，选择识别结果分布X的协方差，则称最好的值，当k=时，即为最佳迁移样本数： xlly VxTE-x (3) 10)输出k=时的目标域数据扩展集yea 为此分布下x的M范数。 3实验与分析定义2在M范数定义下，若x,yeR,则马氏距离定义为：为验证本文所提出算法的有效性，本文分别 d(x.y)=v(x-y)E-(x-y) (4) 以包装领域和医疗领域为例进行命名实体识别实验。 2)F-KNST算法描述 3.1包装领域命名实体识别输入源域数据集X,目标域数据集X,样本 3.11数据准备近邻数k: 中国包装网作为我国最大的包装行业专业网输出目标域数据扩展集ym; 站，包含了大量的包装领域文本。本文从中国包 1)输入源域数据集X,目标域数据集X: 装网”上获取包装行业新闻作为实验数据构成 2)对X和X分别训练文档向量。得到源域向迁移学习目标域样本，共计500篇。为保证源域量集D(s)m,D(s)m={d(s),d(s2),…,dsm)l,目标域向与目标域的样本分布，本文选取搜狗实验室的量集D(0m,D(i)n={dt),dt2)…,d(tn); 全网新闻语料，通过xml解析并去除Html标签后

K 近邻语义迁移适配领域新闻数据集 Doc2Vec 领域新闻数据 Doc2Vec 集通用新闻数据集 Doc2Vec 通用新闻数据 Doc2Vec 集领域新闻数据扩展集 1 领域新闻数据扩展集 2 领域新闻数据扩展集 N-1 领域新闻数据 … 扩展集 N 识别结果 1 BiLSTM-CNN-CRFs 识别结果 2 … 识别结果 N-1 识别结果 N 反馈输出最佳识别结果图 4 反馈式 K 近邻语义迁移学习的领域命名实体识别流程 Fig. 4 F-KNST domain named entity recognition flowchart 2.2 F-KNST 算法实现通用新闻数据集 (以下称源域) 中存在许多可以迁移到特定领域新闻数据集 (以下称目标域) 的知识。由于目标域除了行业名词之外，与源域数据格式、报道措辞均相差不大，数据分布基本满足独立同分布。因此，从源域中获取与目标域中语义相近的新闻语料以填充目标域可以更加丰富目标域中数据分布特点，扩充目标域中语义特征，使目标域在后续预训练和训练过程中获取到足够的语义信息及类实体特征。 1) 马氏距离定义 ⊆ X {xi}1 n x 设随机向量 x∈R n ，来自分布 X(X R n )，E∈R n 与 Σ∈R n × n 分别表示的期望和协方差，是的一组观测值，并且满足独立同分布条件。定义 1 设 x 为空间 R n n 的一个维向量，Σ 是分布 X 的协方差，则称 ∥x∥M = √ x TΣ−1 x (3) 为此分布下 x 的 M 范数。 ∀x, y ∈ R 定义 d 2 在 M 范数定义下，若，则马氏距离定义为： d(x, y) = √ (x−y)Σ−1 (x−y) (4) 2)F-KNST 算法描述 Xs Xt k 输入源域数据集，目标域数据集，样本近邻数；输出目标域数据扩展集 yext； 1) 输入源域数据集 Xs Xt ,目标域数据集； Xs Xt D(s)m D(s)m = {d(s1),d(s2),··· ,d(sm)} D(t)n D(t)n = {d(t1),d(t2),··· ,d(tn)} 2) 对和分别训练文档向量。得到源域向量集，，目标域向量集，； 3) 初始化 k 值； d(ti) ∈ D(t)n D(t)n d(ti) 4) ，从中获取目标域样本文档向量； d(sj) ∈ D(s)m D(s)m d(sj) 5) ，从中获取源域样本文档向量； Dist(d(ti),d(sj)) j k yext 6 ) 使用式 ( 4 ) 计算样本语义相似度距离；针对每个目标域样本，从源域提取个最相关的源域样本，加入到目标域数据扩展集； 7) 对 yext 中样本进行预处理，预训练，送入 BiLSTM+CNN+CRFs 网络模型中训练，得到实体识别结果； 8) 更新 k 值，重复执行 4)~7)，返回 N 组实体识别结果； ˜k k ˜k 9) 根据实体识别反馈的结果，选择识别结果最好的值，当 = 时，即为最佳迁移样本数； k ˜ 10) 输出 =k 时的目标域数据扩展集 yext。 3 实验与分析为验证本文所提出算法的有效性，本文分别以包装领域和医疗领域为例进行命名实体识别实验。 3.1 包装领域命名实体识别 3.1.1 数据准备中国包装网作为我国最大的包装行业专业网站，包含了大量的包装领域文本。本文从中国包装网[17] 上获取包装行业新闻作为实验数据构成迁移学习目标域样本，共计 500 篇。为保证源域与目标域的样本分布，本文选取搜狗实验室[18] 的全网新闻语料，通过 xml 解析并去除 Html 标签后 ·824· 智能系统学报第 14 卷

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录