第4卷第2期 智能系统学报 Vol 4 Ng 2 2009年4月 CAA I Transactions on Intelligent Systems Apr 2009 汉语句子语义三维表示模型 朱倩,程显毅,韩飞 江苏大学计算机科学与通信工程学院,江苏镇江212013) 摘要:如何表示和计算汉语句子的语义一直是自然语言理解的主要目标之一,在分析现有国内外关于语义表示研 究成果基础上,提出了汉语句子语义的三维表示模型,即“义面一义原一义境模型.该模型可以使句子包含的信息 更准确、更全面地表示出来,为汉语语义知识建模和语义计算的研究提供一种新的思路 关键词:自然语言理解:语义:义面:义原:义境 中图分类号:TP3194文献标识码:A文章编号:1673-4785(2009)02-0122-09 A three-dmensional represen tative model of Chinese sen tence semantics ZHU Q ian,CHENG Xian-yi,HAN Fei (School of Computer Science and Telecommunications Engineering,Jiangsu University,Zhenjiang 212013,China) Abstract:How to exp ress and calculate the Chinese sentence semantic has alays been one of the main goals in the aspect of natural language understanding Based on the analysis of the research on the semantic at home and a- board,the three-diensional model is proposed to exp ress Chinese sentence semantic,that is"word semantics word ontobgy-context"model The model can express the infomation which were contained by the sentencesmore accu- rately It is provide a new method for the research ofmaking a model of Chinese semantic knowledge and calculat- ing the semantic Keywords:natural language understanding semantic;word semantic;word ontology,context 随着互联网以及大规模数据存储体系的迅猛发已经取得了一定的成果山,但是对于中文的语义分 展,人类已经进入名副其实的海量信息时代.然而,析则相对落后.其中主要的原因在于,相对于印欧语 拥有海量数据仅仅意味着人类拥有全面、深入、方便言,中文没有那么丰富的形态变化,中文的词类与句 地驾驭这些海量数据中所蕴涵知识的潜在可能性. 法功能不是一一对应的,中文的词、短语、句子之间 现实状况是,目前对海量数据的操作主要还在信息的界限是模糊的.除此而外甚至可能是更重要的原 检索阶段,根本谈不上构建于其上的知识组织、总结 因在于,中文的结构更加依赖于语义的制约2) 及分析,彻底扭转此被动局面的惟一途径是,信息处 理必须跨越到语义计算 1传统语义计算模型 语义计算(语义分析)指的是将自然语言句子 合适的语义表示是有效语义计算成功的一半, 转化为反映这个句子意义(即句义)的某种形式化 目前,有如下几种有影响的语义表示模型: 表示.即将人类能够理解的自然语言转化为计算机 1)概念从属理论(conceptual depend-一ency, 能够理解的形式语言,做到人与机器的互相沟通.然 CD).CD理论认为,人在理解自然语言时依赖的是 而,限于目前的技术水平,印欧语言在这方面的研究 潜在的概念表述,而不是具体的词或句子.人们总 是用以前遇到的更简单、更基本的事来理解现在所 收稿日期:2008-12-16 基金项目:因家自然科学基金资助项目(60702056) 遇到的事情.因此,当计算机理解自然语言时,也 通信作者:朱倩.E1mai让calmez四@126cam 要依赖事件的概念表述而不是特定的词或句.概念 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 4卷第 2期 智 能 系 统 学 报 Vol. 4 №. 2 2009年 4月 CAA I Transactions on Intelligent System s Ap r. 2009 汉语句子语义三维表示模型 朱 倩 ,程显毅 ,韩 飞 (江苏大学 计算机科学与通信工程学院 ,江苏 镇江 212013) 摘 要 :如何表示和计算汉语句子的语义一直是自然语言理解的主要目标之一. 在分析现有国内外关于语义表示研 究成果基础上 ,提出了汉语句子语义的三维表示模型 ,即“义面 —义原 —义境 ”模型. 该模型可以使句子包含的信息 更准确、更全面地表示出来 ,为汉语语义知识建模和语义计算的研究提供一种新的思路. 关键词 :自然语言理解 ;语义 ;义面 ;义原 ;义境 中图分类号 : TP319. 4 文献标识码 : A 文章编号 : 167324785 (2009) 0220122209 A three2dimensional representative model of Chinese sentence semantics ZHU Q ian, CHENG Xian2yi, HAN Fei ( School of Computer Science and Telecommunications Engineering, Jiangsu University, Zhenjiang 212013, China) Abstract:How to exp ress and calculate the Chinese sentence semantic has always been one of the main goals in the aspect of natural language understanding. Based on the analysis of the research on the semantic at home and a2 board, the three2dimensionalmodel is p roposed to exp ress Chinese sentence semantic, that i“s word semantics2word ontology2context”model. The model can exp ress the information which were contained by the sentencesmore accu2 rately. It is p rovide a new method for the research of making a model of Chinese semantic knowledge and calculat2 ing the semantic. Keywords: natural language understanding; semantic; word semantic; word ontology; context 收稿日期 : 2008212216. 基金项目 :国家自然科学基金资助项目 (60702056). 通信作者 :朱 倩. E2mail: callmezq@126. com. 随着互联网以及大规模数据存储体系的迅猛发 展 ,人类已经进入名副其实的海量信息时代. 然而 , 拥有海量数据仅仅意味着人类拥有全面、深入、方便 地驾驭这些海量数据中所蕴涵知识的潜在可能性. 现实状况是 ,目前对海量数据的操作主要还在信息 检索阶段 ,根本谈不上构建于其上的知识组织、总结 及分析. 彻底扭转此被动局面的惟一途径是 ,信息处 理必须跨越到语义计算. 语义计算 (语义分析 )指的是将自然语言句子 转化为反映这个句子意义 (即句义 )的某种形式化 表示. 即将人类能够理解的自然语言转化为计算机 能够理解的形式语言 ,做到人与机器的互相沟通. 然 而 ,限于目前的技术水平 ,印欧语言在这方面的研究 已经取得了一定的成果 [ 1 ] ,但是对于中文的语义分 析则相对落后. 其中主要的原因在于 ,相对于印欧语 言 ,中文没有那么丰富的形态变化 ,中文的词类与句 法功能不是一一对应的 ,中文的词、短语、句子之间 的界限是模糊的. 除此而外 ,甚至可能是更重要的原 因在于 ,中文的结构更加依赖于语义的制约 [ 2 ] . 1 传统语义计算模型 合适的语义表示是有效语义计算成功的一半. 目前 ,有如下几种有影响的语义表示模型 : 1) 概念从属理论 ( concep tual depend—ency, CD). CD理论认为 , 人在理解自然语言时依赖的是 潜在的概念表述 , 而不是具体的词或句子. 人们总 是用以前遇到的更简单、更基本的事来理解现在所 遇到的事情. 因此 , 当计算机理解自然语言时 , 也 要依赖事件的概念表述而不是特定的词或句. 概念
第2期 朱倩,等:汉语句子语义三维表示模型 ·123· 是指动作或在某一方向上对一物体做些什么,所有 义原具有层次性,分为实体、事件、属性、属性 概念都可以由少量作用于物体的原语动作来描述, 值、数量、数量值、句法特征、次要特征和动态角色等 这是概念从属理论的基本思想).CD理论希望对 类别.概念由义原描述,也具有层次性和分类.知网 常识进行系统而又具体地描写,并利用原语来便利 对每个事件义原给出了角色框架,列出了某一类事 推理,从而达到对语言的自动理解.但从另一方面 件发生时框架中的必要绝对角色 看,CD对常识描写是相当刻板和定式的 知网适合于汉语的语义分析,但知网也有以下 2)语义场理论(theory of field,.TF).TF是介于 不完善的地方: 单个词和整体词汇之间的一种活的现实.作为整体 ①知网强调了概念即义项之间的关系,但比义 的一部分,它们与词一样具有被并入一个更大的系 项更大的语义单位即语义块则没有提及, 统中去的特征,而又和词汇一样,具有被分成较小 ②知网给出事物类概念和事件类概念之间的关 单位的特性」 系,但对事件类概念之间的关系没有给出,不利于 汉语语义分析的着眼点在于分析出句中所有概 解决汉语主动词的确定问题」 念之间的关系.关系语义场强调的正是义项之间的 ③知网提出了73个语义角色来描述概念之间 关系,因而对汉语的语义分析可以借鉴语义场理 的关系,在事件义原的框架中以这73个语义角色 论 描述框架的必要语义角色,同时知网还提出了其符 3)格语法(case grammar,,CG),格语法的基本 号系统,用以在词典的语义定义和事物类义原的共 思想是:动词在句中起中心作用,参与动作的各个 性描述中描述概念之间的关系.对概念之间关系的 体称为语义格”,且格的数量是有限的.针对每个 描述存在2套描述体系,且这2套描述符号并不一 动词的义项,由可能的语义格”子集构成格框架, 致,不能很好对应 这一子集分为必要的和可选的2个集合. ④概念之间的关系描述还很不够,需补充 格语法最大的特点是承认语义在句法中的主导 5)概念层次网络(hierarchical netork of con- 作用,由格语法分析可以得到句子的深层语义结 cepts,.HNC).HNC理论的目标是以概念联想脉络 构,给出各成分的语义角色,对于确定正确的句法 为主线,建立一种模拟大脑语言感知过程的自然语 结构有很大帮助 言表达模式和计算机理解处理模式,使计算机获得 格语法在汉语分析中存在以下3个缺点: 消解模糊的能力] ①无法解决汉语的连动和兼语句式.格语法认 HNC建立的语句表述模式以句类为中心,所以 为动词在句中起中心作用,那么分析句子时首先要 可称之为句类体系.HNC定义的句类是指句子的语 确定句子的核心.汉语缺乏形态特征,作为核心的 义类型,而没有陈述句、疑问句、祈使句和感叹句之 主动词通常也缺乏形态特征.如何在有多个动词的 分.HNC建立了句类的表示式,句类表示式由语义 连动式和兼语式中找出句子的核心是汉语信息处理 块构成,语义块是句子的下一级语义构成单位.语义 的一个难题,也是格语法无法解决的问题 块是句类的函数,也就是说,语义块的含义取决于句 ②短语内部各成分间关系无法确定.格语法提 类,一个句子应该有几个什么样的语义块,这是由句 出的各种格关系都是名词性短语和动词之间的语义 类决定的.HNC发现,句类表示式存在有限的基元 关系,对于名词性短语内部和动词短语内部各成分 类型,总共有57种,称为基本句类 关系的确定没有给出 句类表示式是句子语义的基本框架,是句子所 ③汉语词汇语义分类标准不确定 表达的基本语义信息.在语言理解处理中,判定句子 4)知网(hownet).知网是一个以汉语和英语词 所属的句类,并辨认出该句类表示式中的各个语义 语所代表的概念为描述对象,以解释概念与概念之 块,是句子理解处理的一项基本内容.因此,以NC 间以及概念所具有的属性之间的关系为基本内容的 的句类体系为指导来开展句子语义研究,具有十分 常识知识库.知网借鉴了概念从属理论的原语概念, 重要的应用价值) 提出了1500多个义原,用来描述概念、概念之间的 6)形式语义学(逻辑语义学、自然语言逻辑). 关系及属性与属性之间的关系1 逻辑语义学着重研究自然语言这种符号系统的语义 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 是指动作或在某一方向上对一物体做些什么 , 所有 概念都可以由少量作用于物体的原语动作来描述 , 这是概念从属理论的基本思想 [ 3 ] . CD 理论希望对 常识进行系统而又具体地描写 , 并利用原语来便利 推理 , 从而达到对语言的自动理解. 但从另一方面 看 , CD 对常识描写是相当刻板和定式的. 2)语义场理论 ( theory of field, TF) . TF是介于 单个词和整体词汇之间的一种活的现实. 作为整体 的一部分 , 它们与词一样具有被并入一个更大的系 统中去的特征 , 而又和词汇一样 , 具有被分成较小 单位的特性. 汉语语义分析的着眼点在于分析出句中所有概 念之间的关系. 关系语义场强调的正是义项之间的 关系 , 因而对汉语的语义分析可以借鉴语义场理 论 [ 4 ] . 3)格语法 ( case grammar, CG) . 格语法的基本 思想是 :动词在句中起中心作用 , 参与动作的各个 体称为“语义格 ”, 且格的数量是有限的. 针对每个 动词的义项 , 由可能的“语义格 ”子集构成格框架 , 这一子集分为必要的和可选的 2个集合. 格语法最大的特点是承认语义在句法中的主导 作用 , 由格语法分析可以得到句子的深层语义结 构 , 给出各成分的语义角色 , 对于确定正确的句法 结构有很大帮助. 格语法在汉语分析中存在以下 3个缺点 : ①无法解决汉语的连动和兼语句式. 格语法认 为动词在句中起中心作用 , 那么分析句子时首先要 确定句子的核心. 汉语缺乏形态特征 , 作为核心的 主动词通常也缺乏形态特征. 如何在有多个动词的 连动式和兼语式中找出句子的核心是汉语信息处理 的一个难题 , 也是格语法无法解决的问题. ②短语内部各成分间关系无法确定. 格语法提 出的各种格关系都是名词性短语和动词之间的语义 关系 , 对于名词性短语内部和动词短语内部各成分 关系的确定没有给出. ③汉语词汇语义分类标准不确定. 4)知网 ( hownet). 知网是一个以汉语和英语词 语所代表的概念为描述对象 , 以解释概念与概念之 间以及概念所具有的属性之间的关系为基本内容的 常识知识库. 知网借鉴了概念从属理论的原语概念 , 提出了 1 500多个义原 , 用来描述概念、概念之间的 关系及属性与属性之间的关系 [ 5 ] . 义原具有层次性 , 分为实体、事件、属性、属性 值、数量、数量值、句法特征、次要特征和动态角色等 类别. 概念由义原描述 , 也具有层次性和分类. 知网 对每个事件义原给出了角色框架 , 列出了某一类事 件发生时框架中的必要绝对角色. 知网适合于汉语的语义分析 , 但知网也有以下 不完善的地方 : ①知网强调了概念即义项之间的关系 , 但比义 项更大的语义单位即语义块则没有提及. ②知网给出事物类概念和事件类概念之间的关 系 , 但对事件类概念之间的关系没有给出 , 不利于 解决汉语主动词的确定问题. ③知网提出了 73个语义角色来描述概念之间 的关系 , 在事件义原的框架中以这 73 个语义角色 描述框架的必要语义角色 ; 同时知网还提出了其符 号系统 , 用以在词典的语义定义和事物类义原的共 性描述中描述概念之间的关系. 对概念之间关系的 描述存在 2套描述体系 , 且这 2套描述符号并不一 致 , 不能很好对应. ④概念之间的关系描述还很不够 , 需补充. 5)概念层次网络 ( hierarchical network of con2 cep ts, HNC). HNC理论的目标是以概念联想脉络 为主线 ,建立一种模拟大脑语言感知过程的自然语 言表达模式和计算机理解处理模式 ,使计算机获得 消解模糊的能力 [ 6 ] . HNC建立的语句表述模式以句类为中心 ,所以 可称之为句类体系. HNC定义的句类是指句子的语 义类型 ,而没有陈述句、疑问句、祈使句和感叹句之 分. HNC 建立了句类的表示式 ,句类表示式由语义 块构成 ,语义块是句子的下一级语义构成单位. 语义 块是句类的函数 ,也就是说 ,语义块的含义取决于句 类 ,一个句子应该有几个什么样的语义块 ,这是由句 类决定的. HNC 发现 ,句类表示式存在有限的基元 类型 ,总共有 57种 ,称为基本句类. 句类表示式是句子语义的基本框架 ,是句子所 表达的基本语义信息. 在语言理解处理中 ,判定句子 所属的句类 ,并辨认出该句类表示式中的各个语义 块 ,是句子理解处理的一项基本内容. 因此 ,以 HNC 的句类体系为指导来开展句子语义研究 ,具有十分 重要的应用价值 [ 7 ] . 6)形式语义学 (逻辑语义学、自然语言逻辑 ). 逻辑语义学着重研究自然语言这种符号系统的语义 第 2期 朱 倩 ,等 :汉语句子语义三维表示模型 ·123·
·124· 智能系统学报 第4卷 模型.20世纪70年代初,蒙太格(R.Montague)创 可以相对孤立地考察字义和词义,比如在查阅 立的蒙太格语法就是自然语言逻辑的开端[) 字典时,可以机械地研究组字成词,组词成句后的句 形式语言的符号和它们所表示的概念之间的对 义,而不必考虑句子使用时涉及的语境因素.句义是 应关系是确定的,符号公式的结构反映它们的意义 一般的、稳定的意义,浅层语义,包括逻辑语义(真 把一个理论形式化后,就可以暂时完全撇开原来理 值条件义)和字面语义 论中的概念、命题的意义,而只从语言符号、公式结 思想的、客观的、不包括人的主观因素的那部分 构符号组合的形态)方面研究.意义是抽象的,往 内容,被许多哲学家称为命题也就是说,客观的思 往不容易精确地理解和掌握.而符号和公式是有穷的 想以命题的形式出现,一个命题或者真实地反映了 具体的对象,能够对其作更精确、更严格的研究,从 外部世界的某个现象,或者对某现象做出了不正确 而通过对具体对象的研究把握抽象的东西 的、虚假的描述.用逻辑的术语说,前者为“缜(T)”, 以形式化为目标的语言逻辑的问世,为人们提 后者为假(F)”,真和假统称为真值,所以,命题具 供了有效的参照系,从而使人们对自然语言的复杂 有真值.命题虽有内容,但无语音、语法外形.所以, 性有了比较清晰的认识.但形式化方法在自然语言逻 从物理特性上看,命题是与句子不同的概念,因为一 辑领域的缺陷与不足具体表现在以下3个方面: 个命题可以由任何语言表达,就是在一种语言里,也 ①形式化在语言逻辑领域不具备普遍的效力; 可通过多种句法途径来表达同一个命题.所以,命题 ②形式化方法不能彻底解决日常实际语用的恰 与表达命题的语言相对独立.命题没有英语的还是 当性问题; 汉语的区别,因为它只有语义特征,不具语言特 ③形式化方法不能取代自然语言的修辞现象 征 尽管存在众多的语义计算模型,研究人员也认 句子的真值条件是研究一个句子在什么场合下 识到了语境(住体、上下文、常识、背景等)在语义计 为真,在什么场合下为假.凡是陈述性的语句都具有 算中的重要性,但是目前还没有有效的结合语境的 真值条件.如果把真值条件当作句子的逻辑语义,就 语义计算模型 有了句子的真值条件义 由于自然语言文本占据了互联网的大半河山, 举例来说,根据如下模型M=<D,F>, 同时,在可预期的将来,对声音、影像、图片的检索仍 其中: 将严重依赖自然语言分析技术(正如近两年Google D=张三,李四,王五,小兵,大力,陈规}, 推出的图像与视像搜索引擎所做的那样),语言计 F(a)=张三,F(b)=李四,F(c=王五,F(d)= 算的重要性也就不言而喻了,可以预期,它将成为信 小兵,F(e)=大力,F(h)=陈规, 息科学技术中长期发展的战略制高点 F()=张三,李四,王五,小兵, F亿)={<张三,李四>,<王五,小兵>,<大 2汉语语义 力,陈规>,<张三,王五>,<小兵,大力>,< 语言是人赖以从事复杂思维的工具,思想是语 陈规,大力>} 言的内容(语义),两者相辅相成.但语言既不等同 因为F(a=张三∈F(H),所以,H(a=T 于说出的话,也不能等同于写下的句子 因为F(e)=大力年F(H),所以,H(a=F因为 语义研究是语言学研究的一个重要组成部分, <F(,F(h)>=<大力,陈规>∈FL),所, 也是自然语言处理中不可忽视的研究内容.语句所 L(eh)=T注意,并不是在说,陈述性句子的意义 表达的意义分为句义和话语义2部分 等同于真值条件义.果真是那样的话,必然会导致荒 21句义 谬的结论,即把所有取真值的句子视为同义,把所有 语言的一个主要用途是描述人的外部世界.句 取假的句子也视为同义.那么所以的陈述句总共就 子由字和词组成,字和词都是音义结合体,所以句子 只有2个句义了,因此,真值条件义只是陈述性句义 也就有了意义 的一个重要方面 定义1句义是字义和词义根据一定规则组合 22话语义 的产物. 语言的另一个用途是表达使用者的情绪,如: 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 模型. 20世纪 70 年代初 , 蒙太格 (R. Montague) 创 立的蒙太格语法就是自然语言逻辑的开端 [ 8 ] . 形式语言的符号和它们所表示的概念之间的对 应关系是确定的 , 符号公式的结构反映它们的意义. 把一个理论形式化后 , 就可以暂时完全撇开原来理 论中的概念、命题的意义 , 而只从语言符号、公式结 构 (符号组合的形态 ) 方面研究. 意义是抽象的 , 往 往不容易精确地理解和掌握. 而符号和公式是有穷的 具体的对象 , 能够对其作更精确、更严格的研究 , 从 而通过对具体对象的研究把握抽象的东西. 以形式化为目标的语言逻辑的问世 , 为人们提 供了有效的参照系 , 从而使人们对自然语言的复杂 性有了比较清晰的认识.但形式化方法在自然语言逻 辑领域的缺陷与不足具体表现在以下 3个方面 [ 9 ] : ①形式化在语言逻辑领域不具备普遍的效力 ; ②形式化方法不能彻底解决日常实际语用的恰 当性问题 ; ③形式化方法不能取代自然语言的修辞现象. 尽管存在众多的语义计算模型 ,研究人员也认 识到了语境 (主体、上下文、常识、背景等 )在语义计 算中的重要性 ,但是目前还没有有效的结合语境的 语义计算模型. 由于自然语言文本占据了互联网的大半河山 , 同时 ,在可预期的将来 ,对声音、影像、图片的检索仍 将严重依赖自然语言分析技术 (正如近两年 Google 推出的图像与视像搜索引擎所做的那样 ) ,语言计 算的重要性也就不言而喻了. 可以预期 ,它将成为信 息科学技术中长期发展的战略制高点. 2 汉语语义 语言是人赖以从事复杂思维的工具 ,思想是语 言的内容 (语义 ) ,两者相辅相成. 但语言既不等同 于说出的话 ,也不能等同于写下的句子. 语义研究是语言学研究的一个重要组成部分 , 也是自然语言处理中不可忽视的研究内容. 语句所 表达的意义分为句义和话语义 2部分. 2. 1 句义 语言的一个主要用途是描述人的外部世界. 句 子由字和词组成 ,字和词都是音义结合体 ,所以句子 也就有了意义. 定义 1 句义是字义和词义根据一定规则组合 的产物. 可以相对孤立地考察字义和词义 ,比如在查阅 字典时 ,可以机械地研究组字成词 ,组词成句后的句 义 ,而不必考虑句子使用时涉及的语境因素. 句义是 一般的、稳定的意义 ,浅层语义 ,包括逻辑语义 (真 值条件义 )和字面语义. 思想的、客观的、不包括人的主观因素的那部分 内容 ,被许多哲学家称为命题. 也就是说 ,客观的思 想以命题的形式出现 ,一个命题或者真实地反映了 外部世界的某个现象 ,或者对某现象做出了不正确 的、虚假的描述. 用逻辑的术语说 ,前者为“真 ( T) ”, 后者为“假 (F) ”,真和假统称为真值 ,所以 ,命题具 有真值. 命题虽有内容 ,但无语音、语法外形. 所以 , 从物理特性上看 ,命题是与句子不同的概念 ,因为一 个命题可以由任何语言表达 ,就是在一种语言里 ,也 可通过多种句法途径来表达同一个命题. 所以 ,命题 与表达命题的语言相对独立. 命题没有英语的还是 汉语的区别 ,因为它只有语义特征 ,不具语言特 征 [ 8 ] . 句子的真值条件是研究一个句子在什么场合下 为真 ,在什么场合下为假. 凡是陈述性的语句都具有 真值条件. 如果把真值条件当作句子的逻辑语义 ,就 有了句子的真值条件义. 举例来说 ,根据如下模型 M = < D, F >, 其中 : D = {张三 ,李四 ,王五 ,小兵 ,大力 ,陈规 }, F ( a) =张三 , F ( b) =李四 , F ( c) =王五 , F ( d) = 小兵 , F ( e) =大力 , F ( h) =陈规 , F (H) = { 张三 ,李四 ,王五 ,小兵 }, F (L ) = { <张三 ,李四 >, <王五 ,小兵 >, <大 力 ,陈规 >, <张三 ,王五 >, <小兵 ,大力 >, < 陈规 ,大力 >} 因为 F ( a) =张三 ∈ F (H) ,所以 , H ( a) = T; 因为 F ( e) =大力 | F (H) ,所以 , H ( a) = F;因为 < F ( e) , F ( h) > = < 大力 , 陈规 >∈ F (L ) , 所 , L ( e, h) = T; 注意 ,并不是在说 ,陈述性句子的意义 等同于真值条件义. 果真是那样的话 ,必然会导致荒 谬的结论 ,即把所有取真值的句子视为同义 ,把所有 取假的句子也视为同义. 那么所以的陈述句总共就 只有 2个句义了. 因此 ,真值条件义只是陈述性句义 的一个重要方面. 2. 2 话语义 语言的另一个用途是表达使用者的情绪 ,如 : ·124· 智 能 系 统 学 报 第 4卷
第2期 朱倩,等:汉语句子语义三维表示模型 ·125· 1)这音乐太棒了 子的语义信息,不但依赖于组成句子的词汇的义面 2)但愿人长久,千里共婵娟 信息语言,词序),而且还包含用有限的义原信息 它们不是对外部世界的描述,而是表达一种价 (体体)表示每个词的深层信息(客体)及义境信息 值观或主观愿望,所以,这些语句无所谓真.也无所 住体、上下文、背景、常识等).所以义面、义原、义 谓假,没有真值条件。 境三位一体,不可分离.句子语义的三维表示模型, 语言的第3个用途是运用语言办事,如: 类似于全息照片,可以使句子包含的信息更准确、更 3)你被开除了. 全面地表示出来,以便更精确地进行句子语义相似 4)陪审团一致裁定:被告无罪 度计算(如图1所示). 类似“裁定”、“生持婚礼”、结拜兄弟”等行 图1中,X轴表示词序列,是外延的(显性结 为,必须在特定的场合下,遵循特定的方式,运用特 构),称为语言空间、句子的表层结构:Y轴表示词的 定的言辞才能办到,离开了语言就办不成,被称为 义原信息,是内涵的隐性结构),称为概念空间、句 “信有所为”一般来说,这种行为或是恰当的或者 子的深层结构:Z轴表示句子的背景信息,包括主体 是不恰当的,也无所谓真假 的思维状态和上下文,称为知识空间.X、Y是客观 还有,句子的意思不能从字面得出,需要知识和 的、静态的、语言的内部信息;Z是主观的、动态的、 推理才能决定,如: 语言的外部信息: 5)鸡不吃了 语言主要是用来交流思想的,在言语交际过程 它有2个意思:鸡吃饱了”,“不吃鸡肉了”,理 中,交际双方能直接凭感官得到义面,而最后得到的 解鸡不吃了的语义要看上下文 是句义和话语义.义原和义境只是一个中介层面.它 以上的3种情形,统称为话语义 们能帮助分词,得出句子的层次结构,以协助词义遵 定义2话语义是言者在特定语境中所表达的 循义面提供的结构有规律地组合起来,从而得到句 意义 子的语义 话语义可以等同于句义,但也可能超越句义,有 义境 额外附加的意义,甚至与句义完全不同.话语义可被 看成是由命题组成的集合,然而,只有说出的命题才 构成话语义,此外却还有存储在记忆中未经表述的 命题 ”义面 虽然话语义并不等同于承载该话语的句义,但 听者总能从某个句义出发,借助知识,经推理而得到 话语所表达的命题.同时,它可以用与言者原来使用 图1句子语义三维表示模型 的句子不一定相同的一个或几个句子,把有关命题 Fig 1 The 3-dmensonal representative model of Chinese 表达出来。 sentence semantics 话语义是个别的意义、临时的意义,深层语义, 3.2义面 总之,句义虽不等同于话语所表达的命题,但命 在汉语语义自动分析中,词本身的语义信息是 题总可以通过句子表达出来,否则便永远无法表达 很重要的.根据组成性原则”,句子的字面意义是 命题了o1 由构成该句子的词的语义以及这些词之间的语义关 系组成的.因此,在语义分析中,义面(词汇语义)是 3汉语语义三维表示模型 基础,是一个汉语语言知识的词典,包括:词语、词 3.1模型描述 性、词项、词例 语言在本质上是主体以知觉的形式对世界的表 语言中的词汇具有高度系统化的结构,正是这 现,它具体地反映了主体对世界的感受程度及其富 种结构决定了词的意义和用法.这种结构包括词和 有个性的呈现方式.语言的排序深刻地揭示了主体 它的意义之间的关系以及个别词的内部结构.对这 对认识世界的认知模式.也就说,完整地表达一个句 种系统化的、与意义相关的结构的词汇研究叫做词 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved htp://www.cnki.ner
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 1) 这音乐太棒了. 2) 但愿人长久 ,千里共婵娟. 它们不是对外部世界的描述 ,而是表达一种价 值观或主观愿望 ,所以 ,这些语句无所谓真. 也无所 谓假 ,没有真值条件. 语言的第 3个用途是运用语言办事 ,如 : 3) 你被开除了. 4) 陪审团一致裁定 :被告无罪. 类似“裁定 ”、“主持婚礼 ”、“结拜兄弟 ”等行 为 ,必须在特定的场合下 ,遵循特定的方式 ,运用特 定的言辞才能办到 ,离开了语言就办不成 ,被称为 “言有所为 ”. 一般来说 ,这种行为或是恰当的或者 是不恰当的 ,也无所谓真假. 还有 ,句子的意思不能从字面得出 ,需要知识和 推理才能决定 ,如 : 5) 鸡不吃了. 它有 2个意思 :“鸡吃饱了 ”,“不吃鸡肉了 ”,理 解“鸡不吃了 ”的语义要看上下文. 以上的 3种情形 ,统称为话语义. 定义 2 话语义是言者在特定语境中所表达的 意义. 话语义可以等同于句义 ,但也可能超越句义 ,有 额外附加的意义 ,甚至与句义完全不同. 话语义可被 看成是由命题组成的集合 ,然而 ,只有说出的命题才 构成话语义 ,此外却还有存储在记忆中未经表述的 命题. 虽然话语义并不等同于承载该话语的句义 ,但 听者总能从某个句义出发 ,借助知识 ,经推理而得到 话语所表达的命题. 同时 ,它可以用与言者原来使用 的句子不一定相同的一个或几个句子 ,把有关命题 表达出来. 话语义是个别的意义、临时的意义 ,深层语义. 总之 ,句义虽不等同于话语所表达的命题 ,但命 题总可以通过句子表达出来 ,否则便永远无法表达 命题了 [ 10 ] . 3 汉语语义三维表示模型 3. 1 模型描述 语言在本质上是主体以知觉的形式对世界的表 现 ,它具体地反映了主体对世界的感受程度及其富 有个性的呈现方式. 语言的排序深刻地揭示了主体 对认识世界的认知模式. 也就说 ,完整地表达一个句 子的语义信息 ,不但依赖于组成句子的词汇的义面 信息 (语言 ,词序 ) ,而且还包含用有限的义原信息 (本体 )表示每个词的深层信息 (客体 )及义境信息 (主体、上下文、背景、常识等 ). 所以义面、义原、义 境三位一体 ,不可分离. 句子语义的三维表示模型 , 类似于全息照片 ,可以使句子包含的信息更准确、更 全面地表示出来 ,以便更精确地进行句子语义相似 度计算 (如图 1所示 ). 图 1中 , X 轴表示词序列 , 是外延的 (显性结 构 ) ,称为语言空间、句子的表层结构; Y轴表示词的 义原信息 ,是内涵的 (隐性结构 ) ,称为概念空间、句 子的深层结构; Z 轴表示句子的背景信息 ,包括主体 的思维状态和上下文 , 称为知识空间. X、Y是客观 的、静态的、语言的内部信息; Z 是主观的、动态的、 语言的外部信息. 语言主要是用来交流思想的 ,在言语交际过程 中 ,交际双方能直接凭感官得到义面 ,而最后得到的 是句义和话语义. 义原和义境只是一个中介层面. 它 们能帮助分词 ,得出句子的层次结构 ,以协助词义遵 循义面提供的结构有规律地组合起来 ,从而得到句 子的语义. 图 1 句子语义三维表示模型 Fig. 1 The 32dimensional rep resentative model of Chinese sentence semantics 3. 2 义面 在汉语语义自动分析中 ,词本身的语义信息是 很重要的. 根据“组成性原则 ”,句子的字面意义是 由构成该句子的词的语义以及这些词之间的语义关 系组成的. 因此 ,在语义分析中 ,义面 (词汇语义 )是 基础 ,是一个汉语语言知识的词典 ,包括 :词语、词 性、词项、词例. 语言中的词汇具有高度系统化的结构 ,正是这 种结构决定了词的意义和用法. 这种结构包括词和 它的意义之间的关系以及个别词的内部结构. 对这 种系统化的、与意义相关的结构的词汇研究叫做词 第 2期 朱 倩 ,等 :汉语句子语义三维表示模型 ·125·
·126· 智能系统学报 第4卷 汇语义学.从词汇语义学看来,词汇不是词的有限的 所有特征 列表,而是高度系统化的结构 从词汇引申到句子,句子被认为反映概念和概 1)词语 念之间的相互关系,并形成一种概念结构.一个句子 选择词语的依据是建立大规模汉语语料库,按 所包含的独立于语言的东西,不是句子的语法结构 出现频率形成的词语表,而不是仅仅依据某一本现 也不是语义结构,而是它的概念结构.2个句子只要 成的词典.知识词典注意收集已经流行又有较固定 含义相同,就有相同的概念结构.所以,理解一个句 可能的词语,如因特网”、欧元”、“下载”、“点 子的关键在于提取句子的概念和概念结构 击”、“黑客等,但又不盲目求新 以义原为基础的理解系统,词汇只是概念的符 2)词项 号,从整体而言,在这样的系统里,没有词只有概念 词项,在多数语言学文献称为义项,至所以用词 最基本的概念集合组成义原集合,义原以动词为中 项取代义项,是突出语言层面.词项是对词语的定 心,相当于语言学研究者声称的语义角色 义,不同的词项给予不同的知识编号.词项的选择要 语义角色是指有关语言成分在所指的语句所表 经过精心考虑.一般很注意某一词项的现代的流通 达的事件中所扮演的参与者角色.从某种意义上说, 性.例如“曹在普通词典中至少有2个词项,一是 语义角色是语言学家对句子中有关结构成分之间的 “姓”,另一是辈”如用于“你曹”而知识词典最好 意义关系的一种分类.这种分类的粗细程度,可以因 只选择第1个词项 语言学家的认识或具体的应用目标的不同而不同, 3)词例 一般分3个层次):论元的语义角色(微观层次) 词例的选择主要是为那些具有多个词项提供例 语义格(仲观层次)、因中心词果宏观层次) 子.这些例子的要求是:强调例子的区别能力而不是 1)微观层次 它们的释义能力.它们的用途在于为消除歧义提供 在这一层级上,又分为基于特定动词的角色和 可靠的帮助.这里试以打的2个词项为例,一个 基于特定领域的角色2种 词项是“买”,另一个是辫编”,假设它们对应的知 前者根据特定动词的意义所指,来确定其论元 识编号分别为1和2,则对应知识1,可以给出词例 成分的语义角色.比如“吃的2个论元的语义角色 (符号“一表示打字):~酱油,张票,饭,去 分别是:吃者,所吃.这样,如果一种语言有1000多 ~瓶酒,醋~来了;则对应知识2,可以给出词例:~ 个动词,那么必将有2000多个语义角色 毛衣,~毛裤,双毛袜子,草鞋,~一条围巾,~ 后者根据各种特定的生活领域的具体场景,来 麻绳,~条辫子 确定有关场景要素的语义角色.这种方法在目前的 4)词性 信息抽取中比较流行.比如,在Stallard2报道的机 词性对句子结构分析和词项的选择有贡献.好 票订购信息系统中,有下列角色:出发城市、目的城 的词性标注就是通过采取适当的方法,根据上下文 市、起飞时间等 语境关系,消除句子中词的语法兼类,使得无论一个 2)中观层次 词兼有几种词性,在特定的场合下只保留其中最合 在Filmore3的语法理论中,先后用到下列格: 适的一种 施事格(AGE):事件的发起者; 3.3义原 经验格(EXPER):经历精神或心理等事件的经 从语言理解的心理学出发,以人类共有的对某 验者; 事物认识的概念出发,认为人们在认识客观事物过 受事格(OBJ):动作的承受者或状态」 程中,存在着某种义原(本体、概念基),义原是最基 源泉格(SOUR):物体移动的始点状态变化的 本的、不易于再分割的意义的最小单位.语言的理解 初状态 过程就是把语句映射到义原的过程.任何一种语言 目标格(GOAL):物体移动的终点,状态变化的 的词汇是离不开该种语言的,但概念是独立于语言 结果; 的.在这样一种思想知道下,词汇只是概念的符号, 处所格(LOG):动作或状态发生的场所; 代表着一组可能知道的,用于该词汇所表达概念的 时间格(TME):动作和状态所进行的时间; 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 汇语义学. 从词汇语义学看来 ,词汇不是词的有限的 列表 ,而是高度系统化的结构. 1)词语 选择词语的依据是建立大规模汉语语料库 ,按 出现频率形成的词语表 ,而不是仅仅依据某一本现 成的词典. 知识词典注意收集已经流行又有较固定 可能的词语 ,如“因特网 ”、“欧元 ”、“下载 ”、“点 击 ”、“黑客 ”等 ,但又不盲目求新. 2)词项 词项 ,在多数语言学文献称为义项 ,至所以用词 项取代义项 ,是突出语言层面. 词项是对词语的定 义 ,不同的词项给予不同的知识编号. 词项的选择要 经过精心考虑. 一般很注意某一词项的现代的流通 性. 例如“曹 ”在普通词典中至少有 2个词项 ,一是 “姓 ”,另一是“辈 ”如用于“尔曹 ”. 而知识词典最好 只选择第 1个词项. 3)词例 词例的选择主要是为那些具有多个词项提供例 子. 这些例子的要求是 :强调例子的区别能力而不是 它们的释义能力. 它们的用途在于为消除歧义提供 可靠的帮助. 这里试以“打 ”的 2个词项为例 ,一个 词项是“买 ”,另一个是“辫编 ”,假设它们对应的知 识编号分别为 1和 2,则对应知识 1,可以给出词例 (符号“~”表示“打 ”字 ) : ~酱油 , ~张票 , ~饭 ,去 ~瓶酒 ,醋 ~来了 ;则对应知识 2,可以给出词例 : ~ 毛衣 , ~毛裤 , ~双毛袜子 , ~草鞋 , ~一条围巾 , ~ 麻绳 , ~条辫子. 4)词性 词性对句子结构分析和词项的选择有贡献. 好 的词性标注就是通过采取适当的方法 ,根据上下文 语境关系 ,消除句子中词的语法兼类 ,使得无论一个 词兼有几种词性 ,在特定的场合下只保留其中最合 适的一种. 3. 3 义原 从语言理解的心理学出发 ,以人类共有的对某 事物认识的概念出发 ,认为人们在认识客观事物过 程中 ,存在着某种义原 (本体、概念基 ) ,义原是最基 本的、不易于再分割的意义的最小单位. 语言的理解 过程就是把语句映射到义原的过程. 任何一种语言 的词汇是离不开该种语言的 ,但概念是独立于语言 的. 在这样一种思想知道下 ,词汇只是概念的符号 , 代表着一组可能知道的 ,用于该词汇所表达概念的 所有特征. 从词汇引申到句子 ,句子被认为反映概念和概 念之间的相互关系 ,并形成一种概念结构. 一个句子 所包含的独立于语言的东西 ,不是句子的语法结构 , 也不是语义结构 ,而是它的概念结构. 2个句子只要 含义相同 ,就有相同的概念结构. 所以 ,理解一个句 子的关键在于提取句子的概念和概念结构. 以义原为基础的理解系统 ,词汇只是概念的符 号 ,从整体而言 ,在这样的系统里 ,没有词只有概念. 最基本的概念集合组成义原集合 ,义原以动词为中 心 ,相当于语言学研究者声称的语义角色. 语义角色是指有关语言成分在所指的语句所表 达的事件中所扮演的参与者角色. 从某种意义上说 , 语义角色是语言学家对句子中有关结构成分之间的 意义关系的一种分类. 这种分类的粗细程度 ,可以因 语言学家的认识或具体的应用目标的不同而不同. 一般分 3个层次 [ 11 ] :论元的语义角色 (微观层次 )、 语义格 (中观层次 )、因 —中心词 —果 (宏观层次 ). 1)微观层次 在这一层级上 ,又分为基于特定动词的角色和 基于特定领域的角色 2种. 前者根据特定动词的意义所指 ,来确定其论元 成分的语义角色. 比如“吃 ”的 2个论元的语义角色 分别是 :吃者 ,所吃. 这样 ,如果一种语言有 1 000 多 个动词 ,那么必将有 2 000多个语义角色. 后者根据各种特定的生活领域的具体场景 ,来 确定有关场景要素的语义角色. 这种方法在目前的 信息抽取中比较流行. 比如 ,在 Stallard [ 12 ]报道的机 票订购信息系统中 ,有下列角色 :出发城市、目的城 市、起飞时间等. 2)中观层次 在 Fillmore [ 13 ]的语法理论中 ,先后用到下列格 : 施事格 (AGE) :事件的发起者 ; 经验格 (EXPER) :经历精神或心理等事件的经 验者 ; 受事格 (OBJ) :动作的承受者或状态 ; 源泉格 (SOUR) :物体移动的始点状态变化的 初状态 ; 目标格 ( GOAL) :物体移动的终点 ,状态变化的 结果 ; 处所格 (LOG) :动作或状态发生的场所 ; 时间格 (TIME) :动作和状态所进行的时间 ; ·126· 智 能 系 统 学 报 第 4卷