D01:10.133745.issn1001-t5.2010.02.024 第32卷第2期 北京科技大学学报 Vol 32 No 2 2010年2月 Journal of Un iversity of Science and Technobgy Beijing Feb 2010 基于深层特征抽取的日文词义消歧系统 雷雪梅)王大亮)田中贵秋3)曾广平) 1)北京科技大学信息工程学院,北京1000832)中国电信集团系统集成公司,北京100035 3)NTT通信科学研究所自然语言研究组,京都6190237 摘要词义消歧的特征来源于上下文·日文兼有中英文的语言特性,特征抽取更为复杂·针对日文特点,在词义消歧逻辑 模型基础上,利用最大嫡模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义·同时,为避 免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文 词义消歧系统的消歧精度提高9%~3%,动词消歧精度获得%的改善. 关键词自然语言处理:词义消歧:最大嫡模型:特征抽取 分类号TP391 Japanese word sense disam biguation system based on deep feature extraction IEI Xueme.WANG Da-liang,TANAKA Takaak,ZENG Guang ping) 1)School of Infomation Engineering University of Science and Technology Beijing Beijing 100083 China 2)System Integmation Campany China Telecan Comporation Beijing 100035 China 3)Natml Language Researh G roup NTT Canmunication Science Labomtories Kyo 6190237,Japan ABSTRACT The features of word sense disambiguation (WSD)come from the context Japanese has linguistic features of both Chi- nese and English at the same tie thus the feature extraction of Japanese is more complicated Consdlering Japanese features based on the proposed W SD logic model and applying the characteristics of infomation integration of the maximum entropy model WSD was solved by the deep feature extraction method introducing semantics and syntactics features Meanwhile for preventing the skewed as- sigrment of lonely word sense the word sense tagging of word sequences was completed with the BeanSearch algorithm.Experinent re- sults show that compared with W SD methods which only focus on the surface lexical features the disambiguation accuracy of the Japa- nese W SD systen proposed in this paper increases 2 to,and the W SD accuracy of vebs iproves 5%. KEY WORDS natural language processing word sense disanbiguation:maxinum entropy model feature extmaction 词义消歧(word sense disambiguation)就是在给 机器学习的方法被尝试用于词义消歧,根据是否使 定上下文环境中确定一个多义词的具体含义,并完 用已标注语料库,可以分为有监督消歧和无监督 成义项标注的过程,该项研究最早起源于20世纪 消歧, 50年代的机器翻译.然而,词义消歧作为自然语言 词义消歧的基本理论依据是“观其伴,而知其 处理的基础性课题,是信息检索、自动文摘、文本对 义”.根据与待消歧词之间的相对距离、次序、频次 齐和问答系统等领域所无法回避的,或者说,凡是 以及句法关系等信息,相邻词提供了可用于消歧的 依赖于文本语义理解的语言处理系统,词义消歧就 很多线索信息1-),由于日文兼有中英文的语言特 是必不可少的,因此,词义消歧一直受到研究者的 性,一方面,中日文的行文方式相同,没有约定的分 重视 隔符:另一方面,日文同英文类似,有比较复杂的变 当前,随着统计自然语言处理技术的发展,很多 形规则,因此,特征选择与特征表示变得更为复杂, 收稿日期:2009-05-01 基金项目:国家高技术研究发展计划资助项目(N。2007AA01ZI70) 作者简介:雷雪梅(1972-女,博士研究生;曾广平(1962)男教授,博士生导师,Emai即ng20012003@yahoo can.cn
第 32卷 第 2期 2010年 2月 北 京 科 技 大 学 学 报 JournalofUniversityofScienceandTechnologyBeijing Vol.32No.2 Feb.2010 基于深层特征抽取的日文词义消歧系统 雷雪梅 1) 王大亮 2) 田中贵秋 3) 曾广平 1) 1) 北京科技大学信息工程学院北京 100083 2) 中国电信集团系统集成公司北京 100035 3) NTT通信科学研究所自然语言研究组京都 6190237 摘 要 词义消歧的特征来源于上下文.日文兼有中英文的语言特性特征抽取更为复杂.针对日文特点在词义消歧逻辑 模型基础上利用最大熵模型优良的信息融合性能采用深层特征抽取方法引入语义、句法类特征用于消解歧义.同时为避 免偏斜指派采用 BeamSearch算法进行词义序列标注.实验结果表明与仅使用表层词法类特征方法相比本文构造的日文 词义消歧系统的消歧精度提高 2% ~3%动词消歧精度获得 5%的改善. 关键词 自然语言处理;词义消歧;最大熵模型;特征抽取 分类号 TP391 Japanesewordsensedisambiguationsystem basedondeepfeatureextraction LEIXue-mei 1)WANGDa-liang 2)TANAKATakaaki 3)ZENGGuang-ping 1) 1) SchoolofInformationEngineeringUniversityofScienceandTechnologyBeijingBeijing100083China 2) SystemIntegrationCompanyChinaTelecomCorporationBeijing100035China 3) NaturalLanguageResearchGroupNTTCommunicationScienceLaboratoriesKyoto6190237Japan ABSTRACT Thefeaturesofwordsensedisambiguation(WSD) comefromthecontext.JapanesehaslinguisticfeaturesofbothChi- neseandEnglishatthesametimethusthefeatureextractionofJapaneseismorecomplicated.ConsideringJapanesefeaturesbased ontheproposedWSDlogicmodelandapplyingthecharacteristicsofinformationintegrationofthemaximumentropymodelWSDwas solvedbythedeepfeatureextractionmethodintroducingsemanticsandsyntacticsfeatures.Meanwhileforpreventingtheskewedas- signmentoflonelywordsensethewordsensetaggingofwordsequenceswascompletedwiththeBeamSearchalgorithm.Experimentre- sultsshowthatcomparedwithWSDmethodswhichonlyfocusonthesurfacelexicalfeaturesthedisambiguationaccuracyoftheJapa- neseWSDsystemproposedinthispaperincreases2% to3%andtheWSDaccuracyofverbsimproves5%. KEYWORDS naturallanguageprocessing;wordsensedisambiguation;maximumentropymodel;featureextraction 收稿日期:2009--05--01 基金项目:国家高技术研究发展计划资助项目 (No.2007AA01Z170) 作者简介:雷雪梅 (1972— )女博士研究生;曾广平 (1962— )男教授博士生导师E-mail:zgping20012002@yahoo.com.cn 词义消歧 (wordsensedisambiguation)就是在给 定上下文环境中确定一个多义词的具体含义并完 成义项标注的过程.该项研究最早起源于 20世纪 50年代的机器翻译.然而词义消歧作为自然语言 处理的基础性课题是信息检索、自动文摘、文本对 齐和问答系统等领域所无法回避的.或者说凡是 依赖于文本语义理解的语言处理系统词义消歧就 是必不可少的.因此词义消歧一直受到研究者的 重视. 当前随着统计自然语言处理技术的发展很多 机器学习的方法被尝试用于词义消歧.根据是否使 用已标注语料库可以分为有监督消歧和无监督 消歧. 词义消歧的基本理论依据是 “观其伴而知其 义 ”.根据与待消歧词之间的相对距离、次序、频次 以及句法关系等信息相邻词提供了可用于消歧的 很多线索信息 [1--2].由于日文兼有中英文的语言特 性一方面中日文的行文方式相同没有约定的分 隔符;另一方面日文同英文类似有比较复杂的变 形规则.因此特征选择与特征表示变得更为复杂. DOI :10.13374/j.issn1001-053x.2010.02.024
.264 北京科技大学学报 第32卷 以往,日文词义消歧研究大多利用相邻词的表层特 w:2…,wn和相应的词义标注序列{3等2…, 征,如词形(m orphology)、词性(part of speech s。组成.其中,w:表示文本中的词项j是进行 POS)、词袋(bag of word BOW)等,也都取得良好的 处理的最基本单元,s表示w:相对应的词义标记, 消歧性能3.那么,除了表层特征外,词义消歧还 =1,2…,m-1,j=12…,n 需要哪些知识?如果逐步加入语义和句法等深层的 在词义标注阶段,词义消歧系统根据训练所得 语言知识,能否提高词义消歧的精度呢? 到的条件概率分布模型,对新文本进行词义标注,找 表征性消歧特征可划分为词法特征、语义特征 到相应的最合适的词义标注序列,即: 和句法特征,本文针对日文的特点,在运用词法特 1品2…,n= 征基础上,将语义、句法类深层语言特征逐步引入词 ang maxP(品1ya2…,anwm1y 义消歧模型,以探究深层特征对词义消歧精度的改 W 2 ...Wan 善程度,词义消歧模型中利用了最大熵模型优良的 信息融合特性,并采用BeamSearch算法实现基于句 ang max>P(C:) 1 子的词义序列标注,实验结果显示,本文构造的有 式中,C。为第个词wm所对应的上下文环境 监督日文词义消歧系统,词义消歧性能能够得到一 这样的条件概率分布实际上就是一个分类模 定程度的改善 型,可运用很多分类器来实现,如朴素贝叶斯、支持 向量机、神经网络和最大熵等。最大熵模型具有非 1词义消歧的逻辑模型 常良好的信息融合特性,因此本文选用最大嫡法, 词义消歧可抽象为一个典型的分类问题,即多 对于增量式词义消歧系统,不断将新标注的样 义词的某个义项在特定上下文环境中获得指派.对 本置于已标注的种子样本集中,便能逐渐扩大训 具有k个义项的多义词w,记为S={,,,{,w 练语料库,缓解训练语料缺乏的问题,当然,若无论 出现在某个确定上下文C(句、段落或篇章)中,然 真伪地将所有标注结果返回用于训练,必然导致分 后,选择一个最合适的义项s=argnaxR(slC),其 类器性能下降.有关增量式学习的情况较为复杂, 中R表示义项和上下文关联程度的映射.然而,孤 此处不予赘述 立地处理当前文中的每个歧义词,很容易出现偏斜 2最大熵概率模型 指派(skewed assignment):因为在一个词序列中,歧 义词之间仍然存在相互约束。因而,词义消歧的目 最大熵模型是一个较为成熟的概率模型,它巧 标应为句子范围内的词义序列消歧 妙地将特征选择和参数估计统一到一个框架下,在 本文提出一个有监督词义消歧的逻辑模型,如 建立模型过程中,能够有效地融合各种来源的信息, 图1所示.这个机器学习过程包括训练和标注两个 因此,它允许定义任意复杂的特征,只要实验者相信 阶段 这些特征可能对类别判定有所贡献,近年来,最大 uw13…地 熵法在自然语言处理领域取得了广泛的应用,特别 552…m 是Ramnaparkhi将最大嫡法应用于词性标注、断句、 f2w222 52122a 训练模块 文本分割和句法分析等问题),作了一系列有益的 条件概率模型 0ta0-a…wn-i 探索, 、-山-2w- P(WWISS) 最大熵基本思想就是保留尽可能多的不确定 In 2Wna 词义标注模块 性.即在一无所知的情况下,认为所有可能事件的 rg maxP(s-ed) 发生几率相同,此时,概率分布是均匀的,事件整体 图1词义消歧逻辑模型 的熵最大,在词义消歧中,依靠上下文表征性特征 Fig 1 Logicalmodel ofW SD 信息,使用条件最大嫡模型对每个候选词义进行统 在模型训练阶段,词义消歧系统需要基于已标 计推断,可归纳为以下动态规划问题: 注的语料库构建一个条件概率分布模型P(W1, maH(P(slC)=-∑ 2 P(a s)bP(slc)= W2,…,WS,S2,,S),≤n用于训练的语料均 -∑P(cP(slc)bP(slo), 为已标注的样本,每个样本由文本单元序列w:
北 京 科 技 大 学 学 报 第 32卷 以往日文词义消歧研究大多利用相邻词的表层特 征如 词 形 (morphology)、词 性 (partofspeech POS)、词袋 (bagofwordBOW)等也都取得良好的 消歧性能 [3--4].那么除了表层特征外词义消歧还 需要哪些知识?如果逐步加入语义和句法等深层的 语言知识能否提高词义消歧的精度呢? 表征性消歧特征可划分为词法特征、语义特征 和句法特征.本文针对日文的特点在运用词法特 征基础上将语义、句法类深层语言特征逐步引入词 义消歧模型以探究深层特征对词义消歧精度的改 善程度.词义消歧模型中利用了最大熵模型优良的 信息融合特性并采用 BeamSearch算法实现基于句 子的词义序列标注.实验结果显示本文构造的有 监督日文词义消歧系统词义消歧性能能够得到一 定程度的改善. 1 词义消歧的逻辑模型 词义消歧可抽象为一个典型的分类问题即多 义词的某个义项在特定上下文环境中获得指派.对 具有 k个义项的多义词 w记为 S={s1s2…sk}w 出现在某个确定上下文 C(句、段落或篇章 )中.然 后选择一个最合适的义项 s′=argmaxR(si|C)其 中 R表示义项和上下文关联程度的映射.然而孤 立地处理当前文中的每个歧义词很容易出现偏斜 指派 (skewedassignment);因为在一个词序列中歧 义词之间仍然存在相互约束.因而词义消歧的目 标应为句子范围内的词义序列消歧. 本文提出一个有监督词义消歧的逻辑模型如 图 1所示.这个机器学习过程包括训练和标注两个 阶段. 图 1 词义消歧逻辑模型 Fig.1 LogicalmodelofWSD 在模型训练阶段词义消歧系统需要基于已标 注的语料库构建一个条件概率分布模型 P(W1 W2…Wk|S1S2…Sk)k≤n.用于训练的语料均 为已标注的样本每个样本由文本单元序列{wi1 wi2…win}和相应的词义标注序列{si1si2… sin}组成.其中wij表示文本 i中的词项 j是进行 处理的最基本单元sij表示 wij相对应的词义标记 i=12…m—1j=12…n. 在词义标注阶段词义消歧系统根据训练所得 到的条件概率分布模型对新文本进行词义标注找 到相应的最合适的词义标注序列即: sm1sm2…smn= argmaxP(sm1sm2…smn|wm1 wm2…wmn)≈ argmax∑ n i=1 P(smi|Cmi). 式中Cmi为第 i个词 wmi所对应的上下文环境. 这样的条件概率分布实际上就是一个分类模 型可运用很多分类器来实现如朴素贝叶斯、支持 向量机、神经网络和最大熵等.最大熵模型具有非 常良好的信息融合特性因此本文选用最大熵法. 对于增量式词义消歧系统不断将新标注的样 本置于已标注的 “种子 ”样本集中便能逐渐扩大训 练语料库缓解训练语料缺乏的问题.当然若无论 真伪地将所有标注结果返回用于训练必然导致分 类器性能下降.有关增量式学习的情况较为复杂 此处不予赘述. 2 最大熵概率模型 最大熵模型是一个较为成熟的概率模型它巧 妙地将特征选择和参数估计统一到一个框架下.在 建立模型过程中能够有效地融合各种来源的信息. 因此它允许定义任意复杂的特征只要实验者相信 这些特征可能对类别判定有所贡献.近年来最大 熵法在自然语言处理领域取得了广泛的应用.特别 是 Ratnaparkhi将最大熵法应用于词性标注、断句、 文本分割和句法分析等问题 [5]作了一系列有益的 探索. 最大熵基本思想就是保留尽可能多的不确定 性.即在一无所知的情况下认为所有可能事件的 发生几率相同.此时概率分布是均匀的事件整体 的熵最大.在词义消歧中依靠上下文表征性特征 信息使用条件最大熵模型对每个候选词义进行统 计推断可归纳为以下动态规划问题: maxH(P(s|C))=—∑c∈C P(cs)lbP(s|c)= —∑c∈C P(c)P(s|c)lbP(s|c) ·264·
第2期 雷雪梅等:基于深层特征抽取的日文词义消歧系统 .265 Ef-Ef 关系靠词序和虚词体现;日文为典型的黏着语 (-P(C(C) (agglutinative language),词内包含的特定附加成分 N f(9s) 表示语法含义,词根与附加成分是松耦合关系,通过 E=∑P(CC月≈ 在名词、动词等的词尾粘贴不同的词缀来实现语法 s t 功能.分析能够用于日文词义消歧的语言特征,可 P(C)P(sc)C)= 归纳为以下三类 C s 词法类特征:词性、词形、词袋、词根、频次等, 1之∑(ss)·g 语义类特征:本体、义类、搭配、域等, N 句法类特征:依存关系等 式中,H为信息嫡,N为训练集大小,C为上下文特 日文的常见变形方式有很多,如活用形变化、黏 征项集合,s为词义标记项,E,为特征的理想期 着虚词、ヶ力变化、片假名扩展等.每种方式都可能 望,E为特征i的经验期望,£(9s)= 有多种变化规则,以及其他不规则变化,例如,上下 1,与0s=1 表示特征的特征函数,为训练 一段动词最后一个假名一定是石,其连用形是把这 0,其他 个弓去掉,比如:忘九马”(oget)变成忘九”,落 样本冲上下文特征项的权重 方石”(mss)变成“落古”,另外,日文动词、形容词 在给定训练语料集后,最大熵模型的任务就是 的词形都存在时态变化,因而,本文采用的日文词 计算每个特征的期望值,每个特征的约束条件都要 法类特征包括:词表面形、词基本形、词性、ngam和 求这个经验期望E与模型的理想特征期望E,相 词袋(除目标词之外的上下文中的所有词) 一致,在所有满足约束的概率分布中,选取满足熵 日文使用平假名、片假名拼字,造成中文所不具 H最大化的那个概率分布P(slC)E是可以直接 有的“一词多形现象,例如,拉致”(kiap)又可 观察到的,通过训练语料统计可以直接获得:E,则 拼写为“致”,渡℃”(transition)又可拼写为 需要进行反复迭代的参数估计获得,目前,参数估 7夕℃等,此外,笔者在行文时通常会对同一 计方法主要有ⅡS(improved iterative scaling入、GS 含义使用不同的词语,这样就不可避免地导致稀疏 generalized iterative scaling)SCG IS sequential 数据问题,若将词项转化成更为抽象的词或概念, conditionalG IS)).本文采用SCGS方法, 便能起到词义上的平滑效果,通过使用本体(omoF 3深层特征抽取 ogy)和义类(thesauns)词典,将目标词、同义词和近 义词归结为上位词,并将词语抽象到词义类别中, 面向人的词义消歧知识和面向机器的词义消歧 例如,日文的“電車”(tain)和“自動車”(automo 知识存在非常大的差异,前者更着眼于词本身的释 bile均可泛化为同一个语义类别一(C988.Land 义,或者说是基于词典的方法;而后者注重词本身之 vehicle. 外的上下文所蕴含的统计意义上的表征性特征 目标词的所有同现词语不都具有相同的消歧效 以往研究大多仅采用目标词的上下文表层的词 果,搭配作为约定俗成的词语组合,体现了义项在 法特征,并没有使用深层的语义、句法知识,本文提 某种显著的临近范围内组合关系的线性共现与期 出深层特征抽取(deep feature extraction)方法,即整 待四,从上下文中有目的地寻找能够区分词义的 合不同来源的词义表征性特征,在使用表层词法类 搭配”,可用于后续的歧义消解. 特征基础上,加入语义类、句法类特征,以提高词义 领域(domain)信息比较简单,但它确是一种很 消歧精度,特征抽取包括两个重要环节:语言学特 有效的消解歧义的提示信息,例如,若词语“☑一 征的选择、特征的形式化表示. ド”(eco)的上下文中同现词语都呈现音乐领域 3.1特征来源 特征(如“guitar”、“orchestra等)则此时其词义应 词义消歧的特征抽取是在上下文中选择能够预 为唱片”:若呈现体育领域特征时,显然词义应为 示目标词义的特征,并组织成特征向量,有监督的 记录”.本文采用了目录搜索网站中使用的12个 词义消歧系统从大量真实文本中捕捉与任务有关的 域类 特征集,获取统计意义上的消歧知识, 语义依存特征是基于句法依存关系寻找中心词 中日文同属东方语言,但分属不同语系,中文 与其他成分之间的关系,本文利用中心语驱动短语 为孤立语(analytic language)类型,形态变化少,语法 结构文法(head driven phrase structure grammar
第 2期 雷雪梅等: 基于深层特征抽取的日文词义消歧系统 s.t. Ep fi =E〜p fi E〜p fi =∑Cs P(Cs)fi(Cs) = 1 N∑ N j=1 fi(cjs) Epfi =∑Cs P(Cs)fi(Cs)≈ ∑Cs P(C)P(s|C)fi(Cs) = 1 N∑ N j=1∑s P(s|cj)·fi(cjs) 式中H为信息熵N为训练集大小C为上下文特 征项集合s为词义标记项Epfi为特征 i的理想期 望Ep〜 fi 为 特 征 i的 经 验 期 望fi (cjs) = 1 tij>0s=1 0 其他 表示特征 i的特征函数tij为训练 样本 j中上下文特征项 i的权重. 在给定训练语料集后最大熵模型的任务就是 计算每个特征的期望值每个特征的约束条件都要 求这个经验期望 Ep〜fi与模型的理想特征期望 Epfi相 一致.在所有满足约束的概率分布中选取满足熵 H最大化的那个概率分布 P(s|C).Ep〜fi是可以直接 观察到的通过训练语料统计可以直接获得;Epfi则 需要进行反复迭代的参数估计获得.目前参数估 计方法主要有ⅡS(improvediterativescaling)、GIS (generalizediterativescaling)和 SCGIS(sequential conditionalGIS) [6].本文采用 SCGIS方法. 3 深层特征抽取 面向人的词义消歧知识和面向机器的词义消歧 知识存在非常大的差异.前者更着眼于词本身的释 义或者说是基于词典的方法;而后者注重词本身之 外的上下文所蕴含的统计意义上的表征性特征. 以往研究大多仅采用目标词的上下文表层的词 法特征并没有使用深层的语义、句法知识.本文提 出深层特征抽取 (deepfeatureextraction)方法即整 合不同来源的词义表征性特征在使用表层词法类 特征基础上加入语义类、句法类特征以提高词义 消歧精度.特征抽取包括两个重要环节:语言学特 征的选择、特征的形式化表示. 3∙1 特征来源 词义消歧的特征抽取是在上下文中选择能够预 示目标词义的特征并组织成特征向量.有监督的 词义消歧系统从大量真实文本中捕捉与任务有关的 特征集获取统计意义上的消歧知识. 中日文同属东方语言但分属不同语系.中文 为孤立语 (analyticlanguage)类型形态变化少语法 关系靠词序和虚词体现;日文为典型的黏着语 (agglutinativelanguage)词内包含的特定附加成分 表示语法含义词根与附加成分是松耦合关系通过 在名词、动词等的词尾粘贴不同的词缀来实现语法 功能.分析能够用于日文词义消歧的语言特征可 归纳为以下三类. 词法类特征:词性、词形、词袋、词根、频次等 语义类特征:本体、义类、搭配、域等 句法类特征:依存关系等. 日文的常见变形方式有很多如活用形变化、黏 着虚词、ケカ变化、片假名扩展等.每种方式都可能 有多种变化规则以及其他不规则变化.例如上下 一段动词最后一个假名一定是る其连用形是把这 个る去掉比如:“忘れる ” (forget)变成 “忘れ ”“落 ちる ” (miss)变成 “落ち ”.另外日文动词、形容词 的词形都存在时态变化.因而本文采用的日文词 法类特征包括:词表面形、词基本形、词性、n-gram和 词袋 (除目标词之外的上下文中的所有词 ). 日文使用平假名、片假名拼字造成中文所不具 有的 “一词多形 ”现象.例如“拉致 ” (kidnap)又可 拼写为 “ら致 ”“渡って ” (transition)又可拼写为 “ワタって ”等.此外笔者在行文时通常会对同一 含义使用不同的词语.这样就不可避免地导致稀疏 数据问题.若将词项转化成更为抽象的词或概念 便能起到词义上的平滑效果.通过使用本体 (ontol- ogy)和义类 (thesaurus)词典将目标词、同义词和近 义词归结为上位词并将词语抽象到词义类别中. 例如日文的 “電車 ” (train)和 “自動車 ” (automo- bile)均可泛化为同一个语义类别---〈C988:Land vehicle〉. 目标词的所有同现词语不都具有相同的消歧效 果.搭配作为约定俗成的词语组合体现了义项在 某种显著的临近范围内组合关系的线性共现与期 待 [7].从上下文中有目的地寻找能够区分词义的 “搭配 ”可用于后续的歧义消解. 领域 (domain)信息比较简单但它确是一种很 有效的消解歧义的提示信息.例如若词语 “レコー ド ” (record)的上下文中同现词语都呈现音乐领域 特征 (如 “guitar”、“orchestra”等 )则此时其词义应 为 “唱片 ”;若呈现体育领域特征时显然词义应为 “记录 ”.本文采用了目录搜索网站中使用的 12个 域类. 语义依存特征是基于句法依存关系寻找中心词 与其他成分之间的关系.本文利用中心语驱动短语 结构 文 法 (head-drivenphrasestructuregrammar ·265·
.266 北京科技大学学报 第32卷 HPSG),以句子为单位对文本进行句法结构分析,找 式,由此获得特征值;fnc()为特征生成函数,可以 到句中的谓词(predicate)和论元(argment)关 包括ps()表示词语位置函数:ped()为中心驱动谓 系[⑧].进而,将上下文中存在语法依存关系的词语 词函数,coag()表示获取同现论元函数,bag()表示 作为目标词的消歧特征,在此基础上,还可对依存 词袋函数;ags表示特征生成参数,包括surf(目标 关系的词语进行语义和义类的泛化·例句:“電車ヤ 词表面形)、base(基本形)、ped(谓词)、hyper((上位 自動車花運転寸弓人”(a person who drives trains or 词)、symo(同位词)、semclass(义类)、pos(词 cas),谓词为Ped=運耘,论元为两个,其中ARG2 性)、等 是由?连接的一个并列短语,用它的孩子对其扩 假设对以下例句:“魚猫仁食心机大.” 展,则论元为{ARG1=人,ARG2=電車,ARG22= (The fish is eaten by cat)进行深层特征抽取,目标 自動車{.进行义类归纳,两者又可归结为同一个义 词为猫”图2展示了词法类(mor以、句法类(sym) 类(C988),则论元变为{ARG1=人,ARG2= 特征生成的形式和过程 (C988{.这样(C988成为目标词消歧的新特征, Target word -2 =1 +】 +1 45 以泛化的特征项提高语义聚合度, mor魚/#/猫/仁/食/5丸// 3.2特征表示 syn 食<(ARG1:猫,ARG2:魚) 用于日文词义消歧的语言学特征非常多,就本 文采用的消歧特征多达43种.因此,进行复杂特征 TargetPOS(0.base) owCO or 抽取,有必要将众多的特征项规范地组织起来,对 Pre3gram mot ps(-3.base 每个特征而言,“Option=Vale'”是它的基本形式, 本文采用BNF范式进行特征表示· Even::W ondSenseTag<FeatureL is 图2语言特征的生成与表示 (FeatureL is::FeatureItem)十 Fig2 Generation and mpresentation of linguistics fitures (Featureltem〉:=(FeatureLabe:[part]: 〈exp ression 4词义序列标注策略 FeatureLabe)::=TargeO rth TagrgeSurf TargetPOS BOW Con- 由于日文语句中词语的关联性很强,孤立地对 Orth I SenClass I Depd- 一个词项进行词义消歧,容易出现偏斜指派.基于 head CoPredAg 句子的词义消歧是一个序列分类的问题,要将每个 Pre3gram Pre2gram 词的词义标记进行排列组合,从而找到概率值最大 Prelgram… 的那个词义序列作为最终结果,为了避免合并词义 part]::=morlsyn Isem 过程中出现组合爆炸,本文采用带有启发式规则的 〈expression:fnc(ags) 束搜索(beam search)算法[]. func()::=ps()Ibag()Ipred()lang() 束搜索算法类似于V itebi算法,所不同的是, angs:-surflbase lpred hyperlsyno Isemn- 把搜索过程分成若干阶段,计算每个阶段的搜索节 class lpos… 点的耗散值,只保留最有价值的前K个点,然后仅 式中,Event为对当前目标词所进行的一次特征抽取 对这K个点进行扩展,依次下去,由于束搜索只维 结果;W ondSenseTag为词义标记,不为空时,特征抽 持有限的K条搜索路径,可大幅缩小搜索空间、提 取用于训练,为空时,特征抽取用于标注;Feat血reList 高搜索效率. 为目标词的特征列表;Featureltem为一个特征项; 设一个多义词输入序列{w,2,…,w,3为 FeatureLabel为特征项标记,包括TargeOrth(目标词 词w:的第个词义,W为待消岐词的集合,T为已消 原形)、Targe Surf(目标词表面形)、入TargePOS(目标 岐词义标记列表,束宽(beam with)为K.N= 词性)、BOW ConOrth(词袋)、Depdhead(HPSG的中 [W,T]作为一个搜索节点,scoe(N)表示N中的词 心驱动词)、SenClass(语义类入、Pe[3~1]gam、 义序列T在当前上下文中的概率,作为过滤搜索节 Post[3~l]gm为目标词的ngam模型;part为抽 点的依据 取特征的类型;mor为词法类特征;sym为句法类特 利用束搜索算法完成日文词序列标注的具体实 征;sm为语义类特征;expression为特征生成表达 现过程如下
北 京 科 技 大 学 学 报 第 32卷 HPSG)以句子为单位对文本进行句法结构分析找 到句 中 的 谓 词 (predicate)和 论 元 (argument)关 系 [8].进而将上下文中存在语法依存关系的词语 作为目标词的消歧特征.在此基础上还可对依存 关系的词语进行语义和义类的泛化.例句:“電車や 自動車を運転する人 ” (apersonwhodrivestrainsor cars)谓词为 Pred=運転论元为两个其中 ARG2 是由 “や ”连接的一个并列短语用它的孩子对其扩 展则论元为{ARG1=人ARG21 =電車ARG22 = 自動車}.进行义类归纳两者又可归结为同一个义 类〈C988〉则 论 元 变 为 {ARG1=人ARG2= 〈C988〉}.这样〈C988〉成为目标词消歧的新特征 以泛化的特征项提高语义聚合度. 3∙2 特征表示 用于日文词义消歧的语言学特征非常多就本 文采用的消歧特征多达 43种.因此进行复杂特征 抽取有必要将众多的特征项规范地组织起来.对 每个特征而言“Option=Value”是它的基本形式. 本文采用 BNF范式进行特征表示. 〈Event〉∷ =〈WordSenseTag〉〈FeatureList〉 〈FeatureList〉∷ =〈FeatureItem〉+ 〈FeatureItem〉∷ =〈FeatureLabel〉:[part]: 〈expression〉 〈FeatureLabel〉∷ =TargetOrth|TagrgetSurf| TargetPOS |BOWCon- tOrth|SemClass|Depd- head | CoPredArg | Pre3gram |Pre2gram | Pre1gram|… [part]∷ =mor|syn|sem 〈expression〉∷func(args) func()∷ =ps()|bag()|pred()|arg()|… args∷ =surf|base|pred|hyper|syno|sem- class|pos|… 式中Event为对当前目标词所进行的一次特征抽取 结果;WordSenseTag为词义标记不为空时特征抽 取用于训练为空时特征抽取用于标注;FeatureList 为目标词的特征列表;FeatureItem为一个特征项; FeatureLabel为特征项标记包括 TargetOrth(目标词 原形 )、TargetSurf(目标词表面形 )、TargetPOS(目标 词性 )、BOWContOrth(词袋 )、Depdhead(HPSG的中 心驱动词 )、SemClass(语义类 )、Pre[3~1]gram、 Post[3~1]gram为目标词的 n-gram模型;part为抽 取特征的类型;mor为词法类特征;syn为句法类特 征;sem为语义类特征;expression为特征生成表达 式由此获得特征值;func( )为特征生成函数可以 包括 ps()表示词语位置函数;pred()为中心驱动谓 词函数coarg()表示获取同现论元函数bag()表示 词袋函数;args表示特征生成参数包括 surf(目标 词表面形 )、base(基本形 )、pred(谓词 )、hyper(上位 词 )、syno(同 位 词 )、semclass(义 类 )、pos(词 性 )、等. 假设对以下例句:“魚が猫に食べられた.” (Thefishiseatenbycat.)进行深层特征抽取目标 词为 “猫 ”.图 2展示了词法类 (mor)、句法类 (syn) 特征生成的形式和过程. 图 2 语言特征的生成与表示 Fig.2 Generationandrepresentationoflinguisticsfutures 4 词义序列标注策略 由于日文语句中词语的关联性很强孤立地对 一个词项进行词义消歧容易出现偏斜指派.基于 句子的词义消歧是一个序列分类的问题要将每个 词的词义标记进行排列组合从而找到概率值最大 的那个词义序列作为最终结果.为了避免合并词义 过程中出现组合爆炸本文采用带有启发式规则的 束搜索 (beamsearch)算法 [9]. 束搜索算法类似于 Viterbi算法所不同的是 把搜索过程分成若干阶段计算每个阶段的搜索节 点的耗散值只保留最有价值的前 K个点然后仅 对这 K个点进行扩展依次下去.由于束搜索只维 持有限的 K条搜索路径可大幅缩小搜索空间、提 高搜索效率. 设一个多义词输入序列{w1w2…wn}swij为 词 wi的第 j个词义W为待消岐词的集合T为已消 岐词义标记列表束宽 (beam width)为 K.N= [WT]作为一个搜索节点score(N)表示 N中的词 义序列 T在当前上下文中的概率作为过滤搜索节 点的依据. 利用束搜索算法完成日文词序列标注的具体实 现过程如下. ·266·
第2期 雷雪梅等:基于深层特征抽取的日文词义消歧系统 .267. 输入:一个包含n个词的句子. T门依次插入队列Q: 输出:n个词对应的n个词义标记,保存在T Step3根据scoe(N)值将Q中的节点排序 中, Step 4 if (W in Q)- 算法: 将T作为最终的最佳词义序列,运 Step1初始化: 算终止; 创建初始节点:T={、Wo={{、o= else [To,Wo]、K: 从Q中取出前K个节点,插入到新 将节点N插入初始队列Q: 队列Q,然后返回Step2: Step 2 for each N in Q 5词义消歧系统设计 ◆for each w:nW,从W中选出w:来 创建W: 本文设计并实现了一个日文词义消歧系统,结 ◆通过依次增加w:的候选词义 构模型如图3所示,该系统包括五个子功能模块 …,s的一个词义,来给T创 在训练和标注阶段,每个模块将承担不同的角色, 建新表T,…,T 图3中灰色箭头标识模型训练过程,白色箭头标识 ◆创建新节点[WT6]…,[W 词义标注过程 用户界面与 预处理模块 特征抽取模块 评价模块 ChaSen PET 分析器n 特征定义 标注 语料库 数据采集 特征抽取 本体词典 义类词典 目标文本 整合数据 特征向量 分类器模块 性能评价 词义标注模块 分类器(最大熵) 解码器(束搜索算法) 标注文本 词义标注数据 名词 模型 图3日文词义消歧系统结构模型 Fg 3 Stmuctunalmodel of the Japanese WSD system 下面详细介绍各个模块的功能 过程中起到扩展、抽象和过滤特征的作用,当然,训 (1)预处理模块(fomatter):主要任务是从不 练阶段的特征抽取是在已知词义前提下进行的,而 同来源的文本中,获取有关语言特征信息,并按预定 标注阶段是在未知目标词词义情况下进行,在词义 的XML格式整合在一起,为后续的特征抽取做准 序列标注过程中,逐渐将目标词上文的语义类特征 备,在训练阶段,模块将逐一读入已标注的语料库 加入,用于目标词义消歧 文本,解析已标注好的特征信息;在标注阶段,模块 (3)最大熵分类器模块(classifier):主要任务 则需要对用户输入的自由日文文本进行分词、词形 是通过训练获得最大熵模型,以支持分类器在标注 分析、词性标注、搭配抽取和HPG句法分析等语言 阶段的计算,由于一般虚词(如介词、语气词、连词 分析处理,定义语言分析深度,依据这个度数来决 和助词)出现的频次很大,且对词义消歧的贡献甚 定模块进行特征抽取的范围,模块集成了多个第三 微.因而,在训练阶段,该模块按照日文五大词 方日文分析工具,如Chasen,Mecab.PET、JACY和 性一名词(noun)、动词(veb)、动名词(vepbal HoG. noun)、形容词(adjective)和副词(adveb)构建相应 (2)特征抽取模块(transfomer)):主要任务是 的最大熵模型,对其他词性的词项将被忽略,训练 按照约定的特征定义进行特征抽取,获取相应的特 阶段的运算量非常巨大,需要较长的脱机时间才能 征向量.该模块借用H inok本体词典o、Goi-Taikei 完成建模任务,此时程序的优化处理是非常必要的, 义类词典山和停用词表等外部知识库资源,在抽取 最大熵模型将成为下一步日文词义标注的知识库
第 2期 雷雪梅等: 基于深层特征抽取的日文词义消歧系统 输入:一个包含 n个词的句子. 输出:n个词对应的 n个词义标记保存在 T 中. 算法: Step1 初始化: 创建初始节点:T0 ={}、W0 ={}、N0= [T0W0 ]、K; 将节点 N0插入初始队列 Q; Step2 foreachNinQ ◆foreachwiinW从 W中选出 wi来 创建 W′i; ◆ 通过依次增加 wi 的候选词义 swi1…swil的一个词义来给 T创 建新表 T1′…T′l; ◆创建新节点 [W′iT′0 ]…[W′i T′l]依次插入队列 Q′; Step3 根据 score(N)值将 Q′中的节点排序 Step4 if(WinQ′)=● 将 T作为最终的最佳词义序列运 算终止; else 从 Q′中取出前 K个节点插入到新 队列 Q然后返回 Step2; 5 词义消歧系统设计 本文设计并实现了一个日文词义消歧系统结 构模型如图 3所示.该系统包括五个子功能模块. 在训练和标注阶段每个模块将承担不同的角色. 图 3中灰色箭头标识模型训练过程白色箭头标识 词义标注过程. 图 3 日文词义消歧系统结构模型 Fig.3 StructuralmodeloftheJapaneseWSDsystem 下面详细介绍各个模块的功能. (1) 预处理模块 (formatter):主要任务是从不 同来源的文本中获取有关语言特征信息并按预定 的 XML格式整合在一起为后续的特征抽取做准 备.在训练阶段模块将逐一读入已标注的语料库 文本解析已标注好的特征信息;在标注阶段模块 则需要对用户输入的自由日文文本进行分词、词形 分析、词性标注、搭配抽取和 HPSG句法分析等语言 分析处理.定义语言分析深度依据这个度数来决 定模块进行特征抽取的范围.模块集成了多个第三 方日文分析工具如 Chasen、Mecab、PET、JACY和 HoG. (2) 特征抽取模块 (transformer):主要任务是 按照约定的特征定义进行特征抽取获取相应的特 征向量.该模块借用 Hinoki本体词典 [10]、Goi-Taikei 义类词典 [11]和停用词表等外部知识库资源在抽取 过程中起到扩展、抽象和过滤特征的作用.当然训 练阶段的特征抽取是在已知词义前提下进行的而 标注阶段是在未知目标词词义情况下进行.在词义 序列标注过程中逐渐将目标词上文的语义类特征 加入用于目标词义消歧. (3) 最大熵分类器模块 (classifier):主要任务 是通过训练获得最大熵模型以支持分类器在标注 阶段的计算.由于一般虚词 (如介词、语气词、连词 和助词 )出现的频次很大且对词义消歧的贡献甚 微.因而在训练阶段该模块按照日文五大词 性---名词 (noun)、动词 (verb)、动名词 (verbal noun)、形容词 (adjective)和副词 (adverb)构建相应 的最大熵模型对其他词性的词项将被忽略.训练 阶段的运算量非常巨大需要较长的脱机时间才能 完成建模任务此时程序的优化处理是非常必要的. 最大熵模型将成为下一步日文词义标注的知识库. ·267·