第11卷第4期 智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0L:10.11992/tis.201606009 网络出版地址:http:/www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.010.html 融合实体特性识别越南语复杂命名实体的混合方法 刘艳超1,郭剑毅12,余正涛1,2,周兰江12,严馨12,陈秀琴3 (1.昆明理工大学信息工程与自动化学院,云南昆明650500:2.昆明理工大学智能信息处理重点实验室,云南昆 明650500:3.昆明理工大学国际教有学院,云南昆明650093) 摘要:命名实体识别是自然语言处理过程中的基础任务。本文针对越南语的复杂命名实体难识别及F值不够高 的问题,提出了一种结合实体库的越南语命名实体识别混合方法。首先,本文根据越南语的语言和实体特点,选 取有效的局部特征和全局特征,应用最大嫡模型进行越南语命名实体识别:其次,根据本文制定的命名实体的规 则进行越南语命名实体识别;然后,结合两者的识别结果,以规则为主,统计为辅原则;最后经过人工校对,把 获取到的正确标记的实体加入到实体库,动态扩增实体库,为规则制定和特征选取提供丰富的语料和依据。实验 表明,该方法能够有效地结合规则与统计的方法优点,互相弥补不足,明显提高了识别的正确率、召回率和F值。 关键词:越南语:实体库构建:实体识别:最大嫡:规则:实体特点:全局特征:局部特征 中图分类号:TP391 文献标志码:A 文章编号:1673-4785(2016)04-0503-10 中文引用格式:刘艳超,郭剑毅,余正涛,等.融合实体特性识别越南语复杂命名实体的混合方法[J].智能系统学报,2016,11(4): 503-512. 英文l用格式:LIU Yanchao,GUO Jianyi,YU Zhengtao,etal.A hybrid method to recognize complex vietnamese named entity incorporating entity properties [J].CAAI Transactions on Intelligent Systems,2016,11(4):503-512. A hybrid method to recognize vietnamese complex named entity incorporating entity properties LIU Yanchao',GUO Jianyi2,YU Zhengtao2,ZHOU Lanjiang 2,YAN Xin2,CHEN Xiuqin!2 (1.School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500, China,2.Key Laboratory of Pattem recognition and Intelligent computing of Yunnan College,Kunming 650500,China;3.The School of International Educaton,Kunming University of Science and Technology,Kunming,650093,China) Abstract:NER(named entity recognition)is the basic task in natural language processing.Aimed at the problems of low F values and the difficulty with complex Vietnamese named entity recognition,a hybrid method incorporating entity properties is proposed.Firstly,according to the Vietnamese language and entity characteristics,local and global features were selected and a maximum entropy model built to recognize Vietnamese named entities.Secondly,according to the named entity rules obtained,the Vietnamese entity was recognized.Then,combining the recognition results,this paper uses the rule as the main principle and statistics as the supplementary principle.Finally,the obtained correct entity was added to the entity corpus after manual correction,dynamically expanding the entity corpus,which provided a rich corpus and a basis for determining rules and selecting features.Experimental results show that the method can effectively take advantage of rules and statistics,and that recognition accuracy,recall,and Fare all significantly improved. Keywords:vietnamese;entity library construction;entity recognition,maximum entropy;rules set,entity characters:lobal features;local features 命名实体识别的任务是识别待处理文本中的人名、地名、机构名、数字、时间、货币和百分号这 7种命名实体。其中,人名、地名、组织机构名最 收稿日期:2016-06-02.网络出版时间:2016-08-08. 难识别,同时也是最重要的3类实体;虽然数字、 基金项目:国家自然科学基金项目(61262041,61472168,61562052):云南 时间、货币和百分号这些实体相对简单,但是对上 省自然科学基金重点项目(2013FA030). 通信作者:郭剑毅.E-mail:gjade86@hotmail.com
第 11 卷第 4 期 智 能 系 统 学 报 Vol.11 No.4 2016 年 8 月 CAAI Transactions on Intelligent Systems Aug.2016 DOI:10.11992/tis.201606009 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.010.html 融合实体特性识别越南语复杂命名实体的混合方法 刘艳超 1,郭剑毅 1,2,余正涛 1,2,周兰江 1,2,严馨 1,2,陈秀琴 3 (1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2.昆明理工大学 智能信息处理重点实验室,云南 昆 明 650500;3. 昆明理工大学 国际教育学院,云南 昆明 650093) 摘 要:命名实体识别是自然语言处理过程中的基础任务。本文针对越南语的复杂命名实体难识别及 F 值不够高 的问题,提出了一种结合实体库的越南语命名实体识别混合方法。首先,本文根据越南语的语言和实体特点,选 取有效的局部特征和全局特征,应用最大熵模型进行越南语命名实体识别;其次,根据本文制定的命名实体的规 则进行越南语命名实体识别;然后,结合两者的识别结果,以规则为主,统计为辅原则;最后经过人工校对,把 获取到的正确标记的实体加入到实体库,动态扩增实体库,为规则制定和特征选取提供丰富的语料和依据。实验 表明,该方法能够有效地结合规则与统计的方法优点,互相弥补不足,明显提高了识别的正确率、召回率和 F 值。 关键词:越南语;实体库构建;实体识别;最大熵;规则;实体特点;全局特征;局部特征 中图分类号:TP391 文献标志码:A 文章编号:1673-4785(2016)04-0503-10 中文引用格式:刘艳超,郭剑毅,余正涛,等. 融合实体特性识别越南语复杂命名实体的混合方法[J]. 智能系统学报, 2016, 11(4): 503-512. 英文引用格式:LIU Yanchao, GUO Jianyi, YU Zhengtao,et al. A hybrid method to recognize complex vietnamese named entity incorporating entity properties[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 503-512. A hybrid method to recognize vietnamese complex named entity incorporating entity properties LIU Yanchao1 , GUO Jianyi1,2, YU Zhengtao1,2 , ZHOU Lanjiang1,2, YAN Xin1,2, CHEN Xiuqin1,2 (1.School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China;2.Key Laboratory of Pattern recognition and Intelligent computing of Yunnan College, Kunming 650500, China; 3.The School of International Educaton, Kunming University of Science and Technology, Kunming, 650093, China) Abstract:NER (named entity recognition) is the basic task in natural language processing. Aimed at the problems of low F values and the difficulty with complex Vietnamese named entity recognition, a hybrid method incorporating entity properties is proposed. Firstly, according to the Vietnamese language and entity characteristics, local and global features were selected and a maximum entropy model built to recognize Vietnamese named entities. Secondly, according to the named entity rules obtained, the Vietnamese entity was recognized. Then, combining the recognition results, this paper uses the rule as the main principle and statistics as the supplementary principle. Finally, the obtained correct entity was added to the entity corpus after manual correction, dynamically expanding the entity corpus, which provided a rich corpus and a basis for determining rules and selecting features. Experimental results show that the method can effectively take advantage of rules and statistics, and that recognition accuracy, recall, and F are all significantly improved. Keywords: vietnamese; entity library construction; entity recognition; maximum entropy; rules set; entity characters;lobal features; local features 1 命名实体识别的任务是识别待处理文本中的人 收稿日期:2016-06-02. 网络出版时间:2016-08-08. 基金项目:国家自然科学基金项目(61262041,61472168,61562052);云南 省自然科学基金重点项目(2013FA030). 通信作者:郭剑毅. E-mail: gjade86@hotmail.com. 名、地名、机构名、数字、时间、货币和百分号这 7 种命名实体。其中,人名、地名、组织机构名最 难识别,同时也是最重要的 3 类实体;虽然数字、 时间、货币和百分号这些实体相对简单,但是对上 照 片 尺 寸 为 20mm*30mm;最 好不用红色背景
·504. 智能系统学报 第11卷 层分析都有重要意义。命名实体识别属于自然语言 张玥杰等4提出以最大嫡模型作为框架,结合中文 处理的基础研究领域,是组块分析刊、数据挖掘、信 实体特点,融合全局特征和局部特征识别命名实体, 息抽取)、信息检索)、句法分析4、语义分析阿、 取得了很好的效果,正确率达到87.29%;Y.Benajiba 自动文摘阿、问答系统刀和机器翻译8例等自然语言处 等结合阿拉伯语语言特点,提出基于支持向量机 理过程中的重要基础,同时也是重要的预处理过程。 的命名实体识别方法,F值达到82.71%。3)基于混 越南语命名实体识别是很困难的一项任务。原 合的方法,潘正高等16结合中文命名实体的特点, 因包括:1)实体复杂。越南国家受多文化的影响, 采用规则与统计相结合的方法进行中文命名实体识 在实体命名方面显示出命名实体的多样性和复杂 别,互相弥补不足,取得了很好的效果;YH.Cai 性;越南地名命名广泛,主要分为基本地名和复合 等7针对中文组织机构名识别中的标注语料匮乏 地名;越南语实体拼写多样化,比如:东京(D6g问题,提出一种基于协同训练机制的机构名识别方 Kinh,Toki6,T6-ky-6,T6-ki-6),胡志明(tphcm,h6chi法,主要将条件随机场、支持向量机和记忆学习方 minh,hochimin.)等;地名中同时含有数字出现,比 法组合成一个分类体系,实验表明,混合方法能有 如第1坊h,tp hcm.(“phuong1”),3号国道(“qudc 效地互相弥补不足;如S.Biswas等18主要提出一 16s63”),同时越南语和其他语言一样都存在外来 种基于隐马尔可夫模型和最大嫡模型的结合,同时 词现象等;2)越南语有其独特的语言特点。越南语 根据语言特点,制定规则集识别命名实体,取得了 是孤立语,没有丰富的形态变化;越南语词是由一 很好的效果;M.A.Meselhi等II9提出一种新的混合 个或多个词素构成;越南人名和中国人名类似,唯 方法,把规则和统计相结合提高命名实体识别的正 一不同在于人名存在垫字,例如Nguyen Thi Tuyet'” 确率,实验表明该方法取得的效果要高于单独使用 阮氏雪,常见的垫字有“文”(Van)人、“妙”(Dieu)人 规则或者统计分析的正确率。4)其他方法,尹继豪 “女”(Nt)“玉”(ngoc入“氏”(Thi)等;越南地 等2针对中文机构名称自动识别提出了简化的一 名各音节首字母大写;比如:昆明(Con Minh)、 体化N最佳层叠模型,该模型实现了汉语切分、词性 云南(Van Nam):非汉越外国地名,首字母大写, 标注、组块分析和机构名实体识别,同时加入启发 音节内部使用”连接,比如:Oen-linh-tom;越南语 信息和机构名称缩写处理,命名实体识别效果显著 机构、团体名称一般第一个音节首字母大写(词组 提高。目前,在越南语实体识别方面有部分研究: 除外)等。以上问题给越南语命名实体识别带来极 V.H.Nguyen等2]首先规范越南语的微博内容,然 大的困难与挑战。 后在支持向量机模型中融入特征进行只针对越南语 1相关研究 微博语料进行实体识别,该研究有一定的局限性; R.C.Sam等22为了解决大规模标记训练语料不足 对于英语和汉语等语言,命名实体的研究都取 的问题,提出半监督学习方法实现越南语文本的命 得了较好的研究成果。目前命名实体的研究,主要 名实体识别,并结合指代词与模糊启发式信息;间 有以下几类方法:1)基于规则的方法,R.Alfred等9 丹辉等2结合越南语实体特点,提出了基于规则的 根据马来西亚语的语言特点,制定马来西亚语命名 越南语的命名实体识别,由于语言的多样性和复杂 实体识别的规则集合;如李楠等1©根据中文化学领 性,该方法所制定的规则集合难以覆盖完全且工作 域中实体特点,制定中文化学领域的命名实体识别 量很大,难以识别新实体、外来实体和缩写实体等: 的规则集合,并引用启发式信息;Elsebai等根据 同时该工作只针对人名、地名、组织机构名进行识 阿拉伯语命名实体特点,制定阿拉伯语命名实体识 别,并没有对数字、百分号、时间和货币做出识别, 别的规则集合,进行识别实体。2)基于统计的方法; 但是这些实体对于文本分析等应用十分重要;潘清 S.Zhao等2结合印第安语言特点提出基于隐马尔 清等24采用条件随机场模型对越南语的命名实体 可夫模型的命名实体识别方法;I.Ahmed等l3使用 识别,该方法的局限性在于:单一的模板识别多种 最大嫡模型进行命名实体识别,取得了很好的效果; 类型实体,所选取的特征只有词、词性以及上下文
·504· 智 能 系 统 学 报 第 11 卷 层分析都有重要意义。命名实体识别属于自然语言 处理的基础研究领域,是组块分析[1]、数据挖掘、信 息抽取[2]、信息检索[3]、句法分析[4]、语义分析[5]、 自动文摘[6]、问答系统[7]和机器翻译[8]等自然语言处 理过程中的重要基础,同时也是重要的预处理过程。 越南语命名实体识别是很困难的一项任务。原 因包括:1)实体复杂。越南国家受多文化的影响, 在实体命名方面显示出命名实体的多样性和复杂 性;越南地名命名广泛,主要分为基本地名和复合 地名;越南语实体拼写多样化,比如:东京(Đông Kinh, Tôkiô, Tô-ky-ô, Tô-ki-ô),胡志明(tphcm, hồ chí minh, hochimin.)等;地名中同时含有数字出现,比 如第 1 坊 h, tp hcm.(“phường 1”),3 号国道(“quốc lộ số 3”),同时越南语和其他语言一样都存在外来 词现象等;2)越南语有其独特的语言特点。越南语 是孤立语,没有丰富的形态变化;越南语词是由一 个或多个词素构成;越南人名和中国人名类似,唯 一不同在于人名存在垫字,例如“Nguyễn Thị Tuyết” 阮氏雪,常见的垫字有“文”(Văn)、“妙”(Diệu)、 “女”(Nữ)、“玉”(ngọc)、“氏”(Thị)等;越南地 名各音节首字母大写;比如:昆明(Côn Minh)、 云南(Vân Nam);非汉越外国地名,首字母大写, 音节内部使用“-”连接,比如:Oen-linh-tợn;越南语 机构、团体名称一般第一个音节首字母大写(词组 除外)等。以上问题给越南语命名实体识别带来极 大的困难与挑战。 1 相关研究 对于英语和汉语等语言,命名实体的研究都取 得了较好的研究成果。目前命名实体的研究,主要 有以下几类方法:1)基于规则的方法, R.Alfred 等[9] 根据马来西亚语的语言特点,制定马来西亚语命名 实体识别的规则集合;如李楠等[10]根据中文化学领 域中实体特点,制定中文化学领域的命名实体识别 的规则集合,并引用启发式信息;Elsebai 等[11]根据 阿拉伯语命名实体特点,制定阿拉伯语命名实体识 别的规则集合,进行识别实体。2)基于统计的方法; S.Zhao 等[12]结合印第安语言特点提出基于隐马尔 可夫模型的命名实体识别方法;I.Ahmed 等[13]使用 最大熵模型进行命名实体识别,取得了很好的效果; 张玥杰等[14]提出以最大熵模型作为框架,结合中文 实体特点,融合全局特征和局部特征识别命名实体, 取得了很好的效果,正确率达到 87.29%;Y.Benajiba 等[15]结合阿拉伯语语言特点,提出基于支持向量机 的命名实体识别方法,F 值达到 82.71%。3)基于混 合的方法, 潘正高等[16]结合中文命名实体的特点, 采用规则与统计相结合的方法进行中文命名实体识 别,互相弥补不足,取得了很好的效果; Y.H.Cai 等[17]针对中文组织机构名识别中的标注语料匮乏 问题,提出一种基于协同训练机制的机构名识别方 法,主要将条件随机场、支持向量机和记忆学习方 法组合成一个分类体系,实验表明,混合方法能有 效地互相弥补不足;如 S.Biswas 等[18]主要提出一 种基于隐马尔可夫模型和最大熵模型的结合,同时 根据语言特点,制定规则集识别命名实体,取得了 很好的效果;M.A.Meselhi 等[19]提出一种新的混合 方法,把规则和统计相结合提高命名实体识别的正 确率,实验表明该方法取得的效果要高于单独使用 规则或者统计分析的正确率。4)其他方法,尹继豪 等[20]针对中文机构名称自动识别提出了简化的一 体化 N 最佳层叠模型,该模型实现了汉语切分、词性 标注、组块分析和机构名实体识别,同时加入启发 信息和机构名称缩写处理,命名实体识别效果显著 提高。目前,在越南语实体识别方面有部分研究: V.H.Nguyen 等[21]首先规范越南语的微博内容,然 后在支持向量机模型中融入特征进行只针对越南语 微博语料进行实体识别,该研究有一定的局限性; R.C.Sam 等[22]为了解决大规模标记训练语料不足 的问题,提出半监督学习方法实现越南语文本的命 名实体识别,并结合指代词与模糊启发式信息;闫 丹辉等[23]结合越南语实体特点,提出了基于规则的 越南语的命名实体识别,由于语言的多样性和复杂 性,该方法所制定的规则集合难以覆盖完全且工作 量很大,难以识别新实体、外来实体和缩写实体等; 同时该工作只针对人名、地名、组织机构名进行识 别,并没有对数字、百分号、时间和货币做出识别, 但是这些实体对于文本分析等应用十分重要;潘清 清等[24]采用条件随机场模型对越南语的命名实体 识别,该方法的局限性在于:单一的模板识别多种 类型实体,所选取的特征只有词、词性以及上下文
第4期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·505· 信息,没有充分结合越南语的语言和实体特点;所 别进行规则和统计分析实体识别,将得到的实体标 选的窗口大小不能满足复杂实体(如长组织机构名 记结果进行去重、组合等操作进行综合,得到越南 等)的识别需求;对语料的选取和规模都有所要求。 语命名实体识别结果:最后人工校对实体识别结果, 另外,上述研究的F值不高且未充分利用语言和实 将正确识别结果加入到实体库中,方便尽可能地制 体特点、受语料规模和类型限制等,单独使用规则 定更全的规则和抽取更有效的特征。实验表明,该 或者统计方法已不能解决上述问题。 方法能够有效地克服了以上越南语实体识别研究的 因此,本文提出一种融合实体特性识别越南语 不足;明显地提高了正确率、召回率和F值。因此, 复杂命名实体的混合方法。其主要思想是:首先用 该方法是有效可行的。 人工标记的方法构建一定规模的实体库,包含常用 1命名实体识别框架 人名、地名、组织机构名、人名姓氏等;其次根据 越南语语言特点和实体库中实体特点,制定出识别 本文提出了一种融合实体特性的越南语复杂命 越南语命名实体识别的规则集合以及选取越南语命 名实体识别的混合方法,该方法能够有效地克服单 名实体识别所用的局部特征和全局特征,使用最大 独使用统计分析或规则集合进行命名实体识别的缺 熵模型统计分析,得到越南语命名实体最大熵模型; 点,并融合越南语语言和实体库中实体特点,原理 然后将测试语料分别使用规则集合和最大熵模型分 及流程如图1所示。 规侧集合匹配 初步命名实何 以规则为主 命名实体识别 识别结果 以统计为辅 结果 制定命名 越南 实体规则 越南语实体库 人工校对 新 越南语特点 中实体特点 测试 选取特征 语料 越南新闻训练 制定特征 语料 模板 最大熵统计分析 最大嫡模型 最大嫡识别结果 图1本文越南语命名实体识别框架 Fig.1 The proposed framework for vietnamese named entity recognition 图1中,越南语命名实体库构建主要来源于中 越南语的语言特点和越南语实体库中实体特点,抽 越交流圈中新闻、经济、政治等语料进行人工标记 取命名实体识别的特征,构建语料训练格式,使用 以及从维基百科抽取得到,越南语语料来源于微信 最大嫡统计分析进行建模,得到最大熵模型;然后 中越交流圈中收集得到。首先构建越南语命名实体 对越南语实体语料进行测试:将测试语料放人已得 规则集合:根据越南语的语言特点和越南语实体库 到规则集合和最大嫡模型进行命名实体识别,分别 中实体特点,制定越南语命名实体规则集合:其次 得到规则识别结果和统计识别结果,将两者得到的 构建越南语最大熵模型的命名实体识别模型:根据 结果进行去重等操作,如果两者识别结果不一致
第 4 期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·505· 信息,没有充分结合越南语的语言和实体特点;所 选的窗口大小不能满足复杂实体(如长组织机构名 等)的识别需求;对语料的选取和规模都有所要求。 另外,上述研究的 F 值不高且未充分利用语言和实 体特点、受语料规模和类型限制等,单独使用规则 或者统计方法已不能解决上述问题。 因此,本文提出一种融合实体特性识别越南语 复杂命名实体的混合方法。其主要思想是:首先用 人工标记的方法构建一定规模的实体库,包含常用 人名、地名、组织机构名、人名姓氏等;其次根据 越南语语言特点和实体库中实体特点,制定出识别 越南语命名实体识别的规则集合以及选取越南语命 名实体识别所用的局部特征和全局特征,使用最大 熵模型统计分析,得到越南语命名实体最大熵模型; 然后将测试语料分别使用规则集合和最大熵模型分 别进行规则和统计分析实体识别,将得到的实体标 记结果进行去重、组合等操作进行综合,得到越南 语命名实体识别结果;最后人工校对实体识别结果, 将正确识别结果加入到实体库中,方便尽可能地制 定更全的规则和抽取更有效的特征。实验表明,该 方法能够有效地克服了以上越南语实体识别研究的 不足;明显地提高了正确率、召回率和 F 值。因此, 该方法是有效可行的。 1 命名实体识别框架 本文提出了一种融合实体特性的越南语复杂命 名实体识别的混合方法,该方法能够有效地克服单 独使用统计分析或规则集合进行命名实体识别的缺 点,并融合越南语语言和实体库中实体特点,原理 及流程如图 1 所示。 图 1 本文越南语命名实体识别框架 Fig.1 The proposed framework for vietnamese named entity recognition 图 1 中,越南语命名实体库构建主要来源于中 越交流圈中新闻、经济、政治等语料进行人工标记 以及从维基百科抽取得到,越南语语料来源于微信 中越交流圈中收集得到。首先构建越南语命名实体 规则集合:根据越南语的语言特点和越南语实体库 中实体特点,制定越南语命名实体规则集合;其次 构建越南语最大熵模型的命名实体识别模型:根据 越南语的语言特点和越南语实体库中实体特点,抽 取命名实体识别的特征,构建语料训练格式,使用 最大熵统计分析进行建模,得到最大熵模型;然后 对越南语实体语料进行测试:将测试语料放入已得 到规则集合和最大熵模型进行命名实体识别,分别 得到规则识别结果和统计识别结果,将两者得到的 结果进行去重等操作,如果两者识别结果不一致
·506· 智能系统学报 第11卷 以规则识别为主:最后将识别得到正确的实体加入 文献23]制定的规则为基础,已取得很好的效果。 到实体库中,方便尽可能地制定更全的规则和抽取 另外,其他实体(时间、数字、百分号、货币)相 对人名、地名、组织机构名较为简单,识别正确率 更有效的特征。 也高。对于除人名、地名、组织机构名以外的实体 3规则集合制定 本文采用正则表达式和模式匹配进行识别。部分规 则表达式如表1所示。 本文人名、地名、组织机构名所使用的规则以 表1部分规则集合 Tablel Partial rules set 编号 实体规则 例子 (0*[1-9]1[012])0*[1-9][12][0-9]301])dd 2016/01/01 2 (mot hailbabonlnamlsaubayltamlchinlchucltramlnghin trieulty)lan S Hai lan 3 [0-9]+/L0-9]+$ 21/01 Ngay+Num+thang+Num+nam+Num Ngay 01 thang 1 nam 2015 Num phan tram tam muoi phan tram (80%) 6 (Nn)am +Num nam 2015 7 0-9]%$ 20% 8 (Tt)hang +Num thang I 9 [0-9]I[A-Z☑+$ 10COM 10 (NIn)gay +Num Ngay 01 11 (0d{4}d{2})/(021-9])1[12])/(0?[1-9]D[12]1-9])K301]))M1 21/01/2015-22/01/2015 12 Num+gio+(sangltrunchieultoi....) 5 gio sang 13 10 gio 20 10:20 14 (Gap+Num)(Num+lan)(Gap+Num+lan) 5 lan hai lan 5 (Tt)hur+(hailbalturlnamlsaubay...)(Clc)hu +nhats Thir hai 16 ^[0-9]+(0-9]{n)?$ 22.222. 17 mothailbalbonlnamlsaubay tam chin chuc tram]nghintrieulty Mot ty 18 Num+RURJGBPICADJUSDICHFINZDUPYITHBISEKINOKIDKKJAUDI 2.1 USD HKDSGDICNYKRWMYRLAK.. Num+gio+Num+phut +Num+giay 3 gio 4 phut 5 giay 20 Num+phan Num 12 21 (0*[1-91[012])-(0[1-9]12][0-9]3[01])-dd 2016-01-01 22 Num +titytrieulngan nghi ntram chuc... 10t垃 23 Num+(thuoc|metlcay solcantan...) 1 met 最大熵模型是最大熵分类器的理论基础,该 4 最大熵模型(ME)构建 模型基本思想就是为所有已知的因素构建模型, 4.1最大熵理论 并把未知因素排除在外。它的一个最显著的特点 最大嫡原理最早由E.T.Jaynes于1957年提出, 就是,能有效整合多种约束信息,对于越南语命 1996年被应用于自然语言处理中。目前,最大嫡广 名实体识别具有很好的适用性;同时降低了搜索 泛运用于歧义消解、句法分析、语义分析和上层机 空间并提高了处理效率。基于最大熵模型的优点, 器翻译中。 本文采用最大熵模型对越南语命名实体进行建 模
·506· 智 能 系 统 学 报 第 11 卷 以规则识别为主;最后将识别得到正确的实体加入 到实体库中,方便尽可能地制定更全的规则和抽取 更有效的特征。 3 规则集合制定 本文人名、地名、组织机构名所使用的规则以 文献[23]制定的规则为基础,已取得很好的效果。 另外,其他实体(时间、数字、百分号、货币)相 对人名、地名、组织机构名较为简单,识别正确率 也高。对于除人名、地名、组织机构名以外的实体 本文采用正则表达式和模式匹配进行识别。部分规 则表达式如表 1 所示。 表 1 部分规则集合 Table1 Partial rules set 编号 实体规则 例子 1 (0*[1-9]|1[012])/(0*[1-9]|[12][0-9]|3[01])/\d\d 2016/01/01 2 (một|hai|ba|bốn|năm|sáu|bảy|tám|chín|chuc|trâm|nghìn|triệu|tỷ)lần $ Hai lần $ 3 ^[0-9]+/[0-9]+$ 21/01 4 Ngày+Num+tháng+Num+năm+Num Ngày 01 tháng 1 năm 2015 5 Num + phần trăm tám mươi phần trăm(80%) 6 (N|n)ăm +Num năm 2015 7 ^[0-9]%$ 20% 8 (T|t)háng +Num tháng 1 9 ^([0-9]|[A-Z])+$ 10COM 10 (N|n)gày +Num Ngày 01 11 ((\d{4}|\d{2})/((0?([1-9]))|(1[1|2]))/((0?[1-9])|([12]([1-9]))|(3[0|1])))/\1 21/01/2015-22/01/2015 12 Num+giờ+(sáng|trưa|chiều|tối......) 5 giờ sáng 13 10 giờ 20 10:20 14 (Gấp+Num)|(Num+lần)|(Gấp+Num+lần) 5 lần ; hai lần 15 (T|t)hử+(hai|ba|tư|năm|sáu|bảy...)(C|c)hủ +nhặt$ Thử hai 16 ^[0-9]+(.[0-9]{n})?$ 22.222.. 17 một|hai|ba|bốn|năm|sáu|bảy|tám|chín|chuc|trâm|nghìn|triệu|tỷ... Một tỷ 18 Num+RUR|GBP|CAD|USD|CHF|NZD|JPY|THB|SEK|NOK|DKK|AUD| HKD|SGD|CNY|KRW|MYR|LAK... 2.1 USD 19 Num+giờ+Num+ phút +Num+ giây 3 giờ 4 phút 5 giây 20 Num+ phần Num 1/2 21 (0*[1-9]|1[012])-(0*[1-9]|[12][0-9]|3[01])-\d\d 2016-01-01 22 Num + tỉ|tỷ|triệu|ngàn|nghìn|trăm|chục... 10 tỷ 23 Num+(thước|mét|cây số|cân|tấn...) 1 mét … 4 最大熵模型(ME)构建 4.1 最大熵理论 最大熵原理最早由 E.T.Jaynes 于 1957 年提出, 1996 年被应用于自然语言处理中。目前,最大熵广 泛运用于歧义消解、句法分析、语义分析和上层机 器翻译中。 最大熵模型是最大熵分类器的理论基础,该 模型基本思想就是为所有已知的因素构建模型, 并把未知因素排除在外。它的一个最显著的特点 就是,能有效整合多种约束信息,对于越南语命 名实体识别具有很好的适用性;同时降低了搜索 空间并提高了处理效率。基于最大熵模型的优点, 本文采用最大熵模型对越南语命名实体进行建 模
第4期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·507· 在确定一个词是否为实体过程中,会涉及各种 di san the gioi》其中,对于Bac Kinh”(北 因素,假设x就是一个由这些因素构成的向量,变 京)做为当前词,本文选取词的上下文信息为: 量y的值为1(属于命名实体有效特征)或者0(不 前一个词是“C6Cung”;前第2个词是“,”;后 属于命名实体有效特征)。Py)是指模型对某个词 一个词是“duoc”;后第2个词是“dura vao”作为有 是否为实体的概率。这个概率可以用上述思想来估 效特征。 计。最大嫡模型要求P()在满足一定约束的条件 2)词性上下文信息的特征:本文选取词性以 下,必须使得式()的熵取得最大值: 及上下文作为本文的词性特征,词性能够有效地 H(p)=-∑p(yx)log p(yx) 判断词在句子中所起的角色,同时也影响当前词 x.y 及周围词的大致信息。例如:“che bien//N 式中的约束条件实际上就是指所有已知的特征: thiy_san/N xuat khau/N中,词性顺序为NN )={0fx)满足一定条件, N”构成了一个组织机构名; Phuong_Thi_Thanh/Np”中Np”表示人名的名 i=1,2,,n, 词;“1M其中词性M在识别数字时,起到了 称py川x)=1 p∑x,)为最大熵模型 很明显的作用;“十亿”翻译为:“mot/MtM 等:在越南语的句子中,句子中的动词、形容词、 的特征。n为所有特征的总数。可以看到这些特征 副词等不可能成为实体的标志,这样可以减小搜 描述了向量x与变量y之间的联系。最终概率输出: 索范围,同时也降低了识别错误率,提高处理效 率。因此,本文选取词性和词性前后两个词性作 p0ly)=ep∑x,》 为本文的特征。 (x) 3)组块上下文信息特征:用组块技术处理命 式中:2是每个向量的权重,且z(x)表示为 名实体识别技术是可行的叫,因为名词性组块的 定义和命名实体名称结构有很强的相似性,所以 =(x)=∑exp(∑,fx,y) 只考虑越南语的名词性组块、时间组块、数词组 块等来分析越南语的命名实体识别问题是可行 4.2特征的选取 的,其他类型组块(形容词组块、副词组块等) 对于统计模型来说,特征的选取直接决定模型 不可能成为实体,这样可以减少识别范围和模型 的好坏,对于最大熵模型来说,好处在于选择特征 搜索范围。本文选取组块以及上下文信息特征, 的灵活性,但也要保证选择的特征能反映不同实体 组块标记能够有效地帮助识别实体的边界和类 类型之间的差异。根据对现有的越南语语言特点和 型。首先,“阮芳去学校。”翻译为 实体库中实体的特点进行分析,本文主要选取局部 "Nguyen_Minh_Phurong //B-NP "Di //B-VP Den 特征和全局特征作为本文的有效特征。 4.2.1全局特征 IB-PP Truong hoc //B-NP.IIO,在句子中 本文所选取的全局特征,针对所有的实体类型 Nguyen_Minh_Phuong”是一个名词组块,确定了 进行选取: 人名实体边界,同时也确定了名词组块的实体类 1)词上下文信息特征:本文选取词以及上下文 型;“.M6t/B-MPty-MP”可以确定数字的类 信息做为本文的特征,词字符包含丰富形态信息。 型和数字的边界等;组块的标记有利于命名实体 例如:“河南省翻译成“tinh Ha Nam'”;“阮生雄” 边界和类型的识别,同时对组块的长度可以有效 地辅助识别实体,组织机构名往往比较长;时间、 翻译为Nguyen Sinh Hùng”;“1987年,北京故宫 被列入《世界遗产名录》。”翻译为Nam1987, 数字、百分号、人名、地名往往组块长度较短。 因此,本文选取当前组块标记、前后两个词的组 C6 Cung Bac Kinh duroc dura vao Danh muc 块标记和组块长度作为本文的有效特征
第 4 期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·507· 在确定一个词是否为实体过程中,会涉及各种 因素,假设 x 就是一个由这些因素构成的向量,变 量 y 的值为 1(属于命名实体有效特征)或者 0(不 属于命名实体有效特征)。P(x|y)是指模型对某个词 是否为实体的概率。这个概率可以用上述思想来估 计。最大熵模型要求 P(y|x)在满足一定约束的条件 下,必须使得式(1)的熵取得最大值: , ( ) ( )log ( ) x y H p p y x p y x 式中的约束条件实际上就是指所有已知的特征: 1 ( ) { ( ) 0 i f x, y = f x, y 满足一定条件, i = n 1,2, , , 称 * 1 ( | ) exp( ( , )) ( ) i i i p y f y z x x x 为最大熵模型 的特征。n 为所有特征的总数。可以看到这些特征 描述了向量 x 与变量 y 之间的联系。最终概率输出: exp( ( , )) ( ) 1 ( | ) * i i i f y z p y x x x 式中: i 是每个向量的权重,且 z x 表示为 y i i i z(x) exp( f (x, y)) 4.2 特征的选取 对于统计模型来说,特征的选取直接决定模型 的好坏,对于最大熵模型来说,好处在于选择特征 的灵活性,但也要保证选择的特征能反映不同实体 类型之间的差异。根据对现有的越南语语言特点和 实体库中实体的特点进行分析,本文主要选取局部 特征和全局特征作为本文的有效特征。 4.2.1 全局特征 本文所选取的全局特征,针对所有的实体类型 进行选取: 1)词上下文信息特征:本文选取词以及上下文 信息做为本文的特征,词字符包含丰富形态信息。 例如:“河南省”翻译成“tỉnh Hà_Nam”;“阮生雄” 翻译为“Nguyễn_Sinh_Hùng”;“1987 年,北京故宫 被列入《世界遗产名录》。”翻译为“Năm 1987, Cố_Cung Bắc_Kinh được đưa_vào 《Danh_mục di_sản thế_giới 》 .”其中,对于“Bắc_Kinh”(北 京)做为当前词,本文选取词的上下文信息为: 前一个词是“Cố_Cung”;前第 2 个词是“,”;后 一个词是“được”;后第 2 个词是“đưa_vào”作为有 效特征。 2)词性上下文信息的特征:本文选取词性以 及上下文作为本文的词性特征,词性能够有效地 判断词在句子中所起的角色,同时也影响当前词 及 周 围 词 的 大 致 信 息 。 例 如 : “chế_biến//N thủy_sản//N xuất_khẩu//N”中,词性顺序为“N N N” 构 成 了 一 个 组 织 机 构 名 ; “Phương_Thị_Thanh//Np”中“Np”表示人名的名 词;“1//M”其中词性“M”在识别数字时,起到了 很明显的作用;“十亿”翻译为:“một//M tỷ//M” 等;在越南语的句子中,句子中的动词、形容词、 副词等不可能成为实体的标志,这样可以减小搜 索范围,同时也降低了识别错误率,提高处理效 率。因此,本文选取词性和词性前后两个词性作 为本文的特征。 3)组块上下文信息特征:用组块技术处理命 名实体识别技术是可行的[1],因为名词性组块的 定义和命名实体名称结构有很强的相似性,所以 只考虑越南语的名词性组块、时间组块、数词组 块等来分析越南语的命名实体识别问题是可行 的,其他类型组块(形容词组块、副词组块等) 不可能成为实体,这样可以减少识别范围和模型 搜索范围。本文选取组块以及上下文信息特征, 组块标记能够有效地帮助识别实体的边界和类 型 。 首 先 , “ 阮 芳 去 学 校 。 ” 翻 译 为 “Nguyễn_Minh_Phương //B-NP ”Đi //B-VP Đến //B-PP Trường_học //B-NP . //O”, 在句子中 “Nguyễn_Minh_Phương”是一个名词组块,确定了 人名实体边界,同时也确定了名词组块的实体类 型;“... Một //B-MP tỷ//I-MP ...”可以确定数字的类 型和数字的边界等;组块的标记有利于命名实体 边界和类型的识别,同时对组块的长度可以有效 地辅助识别实体,组织机构名往往比较长;时间、 数字、百分号、人名、地名往往组块长度较短。 因此,本文选取当前组块标记、前后两个词的组 块标记和组块长度作为本文的有效特征