第5章单词与词组的处理与分析 扩充转移网络分词法 它是以有限状态机概念为基础的方法。有限状态机只能识别正 则语言,对有限状态机作的第一次扩充可以使其具有递归能力,这 样就形成递归转移网络(RIN)。在RITN中,弧线上的标志不仅可 以是终极符(语言语句中的各种词语)或非终极符(还没有推导完 的词类、符号等等,例如名词N,动词V,形容词A等等),还可以 调用另外的子网络名字的非终极符(例如字或字串的成语条件)。 这样,计算机在运行某个子网络时,就可以调用另外的子网络,还 可以递归调用。目前大多数的自然语言理解系统都把词典组织成 个表,表是静态的。使用扩充转移网络来组织词典就可以构成一个 动态的词典,词法扩充转移网络的使用,它使分词处理和自然语言 理解系统的句法处理阶段交互成为可能,并且有效地解决了汉语分 词的歧义
第 5 章 单词与词组的处理与分析 扩充转移网络分词法 它是以有限状态机概念为基础的方法。有限状态机只能识别正 则语言,对有限状态机作的第一次扩充可以使其具有递归能力,这 样就形成递归转移网络(RTN)。在RTN中,弧线上的标志不仅可 以是终极符(语言语句中的各种词语)或非终极符(还没有推导完 的词类、符号等等,例如名词N,动词V,形容词A等等),还可以 调用另外的子网络名字的非终极符(例如字或字串的成语条件)。 这样,计算机在运行某个子网络时,就可以调用另外的子网络,还 可以递归调用。目前大多数的自然语言理解系统都把词典组织成一 个表,表是静态的。使用扩充转移网络来组织词典就可以构成一个 动态的词典,词法扩充转移网络的使用,它使分词处理和自然语言 理解系统的句法处理阶段交互成为可能,并且有效地解决了汉语分 词的歧义
第5章单词与词组的处理与分析 全自动词典切词 这种方法完全使用切词规则切分词语,其规则中的参数由词 典提供。该方法可以部分解决歧义问题,但因是匹配切词,效率 不高。 规则描述语言切词法 规则描述语言是用以描述汉语分词、分析和生成规则的一种 工具。其中,整个规则语言将由若干个不同性质的规则块构成, 而每一个规则块又包括多条规则,这些规则块的结构一般采用多 层次的树型结构(当然,也可以采用其它结构,例如链式结构)。 该方法对正确描述汉语是一种有意义的尝试,值得深入研究
第 5 章 单词与词组的处理与分析 全自动词典切词 这种方法完全使用切词规则切分词语,其规则中的参数由词 典提供。该方法可以部分解决歧义问题,但因是匹配切词,效率 不高。 规则描述语言切词法 规则描述语言是用以描述汉语分词、分析和生成规则的一种 工具。其中,整个规则语言将由若干个不同性质的规则块构成, 而每一个规则块又包括多条规则,这些规则块的结构一般采用多 层次的树型结构(当然,也可以采用其它结构,例如链式结构)。 该方法对正确描述汉语是一种有意义的尝试,值得深入研究
第5章单词与词组的处理与分析 多遍扫描联想法 这种方法是使用切分标志把文本切分成若干子串。它一般分成两步进行:第 步,使用自然切分标志对文本进行预处理;第二步,利用非自然切分标志结合 联想库对文本进行有效的分割。这两布完成以后,再利用实词的词库和联想库将 所有词群细分为词。在这种方法的操作中,分词时将要充分利用各种语法知识 联想和回溯机制同时作用分割和细分阶段,其目的在于更有效的解决歧义组合结 构的切分问题,并且兼有自动纠错和检错这样的特殊功能。这种方法属于组合方 法,方法的基点立足于可靠性、实用性和通用性 神经网络分词法 这种方法是模拟人脑功能采用并行、分布处理和建立数值计算模型工作的 方法。它将分词知识所分散隐蔽式的方法存入神经网络内部,然后再通过各种自 学习和训练修改内部的权值,以达到正确的分词效果,最后给出神经网络自动分 词结果。由于神经网络这一学科的研究有许多问题尚未解决,所以此方法还处于 探索之中
第 5 章 单词与词组的处理与分析 多遍扫描联想法 这种方法是使用切分标志把文本切分成若干子串。它一般分成两步进行:第 一步,使用自然切分标志对文本进行预处理;第二步,利用非自然切分标志结合 联想库对文本进行有效的分割。这两布完成以后,再利用实词的词库和联想库将 所有词群细分为词。在这种方法的操作中,分词时将要充分利用各种语法知识、 联想和回溯机制同时作用分割和细分阶段,其目的在于更有效的解决歧义组合结 构的切分问题,并且兼有自动纠错和检错这样的特殊功能。这种方法属于组合方 法,方法的基点立足于可靠性、实用性和通用性。 神经网络分词法 这种方法是模拟人脑功能采用并行、分布处理和建立数值计算模型工作的 方法。它将分词知识所分散隐蔽式的方法存入神经网络内部,然后再通过各种自 学习和训练修改内部的权值,以达到正确的分词效果,最后给出神经网络自动分 词结果。由于神经网络这一学科的研究有许多问题尚未解决,所以此方法还处于 探索之中
第5章单词与词组的处理与分析 专家系统分词法 这种方法从专家系统角度把分词的知识(包括常识性分词知识与消除歧义 切分的启发性知识,即歧义切分规则)从实现分词过程的推理机中独立出来,从 而使知识库的维护与推理机的实现互不千扰,以达到使知识库易于维护和管理。 这种方法还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功 能。虽然专家系统研究相对成熟,但真正要把这一方法作为完善的机器翻译自动 分词方法,还有很长的路要走。 综上所述,由于汉语的复杂性。我们很难以某种方法正确地、彻底地自动分 词。这些不同的方法,它们各有不同的优点和缺点,适合不同的环境。但是如何 比较正确的评价、度量一个方法,则显得尤为重要,这一点将在后面论述
第 5 章 单词与词组的处理与分析 专家系统分词法 这种方法从专家系统角度把分词的知识(包括常识性分词知识与消除歧义 切分的启发性知识,即歧义切分规则)从实现分词过程的推理机中独立出来,从 而使知识库的维护与推理机的实现互不干扰,以达到使知识库易于维护和管理。 这种方法还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功 能。虽然专家系统研究相对成熟,但真正要把这一方法作为完善的机器翻译自动 分词方法,还有很长的路要走。 综上所述,由于汉语的复杂性。我们很难以某种方法正确地、彻底地自动分 词。这些不同的方法,它们各有不同的优点和缺点,适合不同的环境。但是如何 比较正确的评价、度量一个方法,则显得尤为重要,这一点将在后面论述
第5章单词与词组的处理与分析 5.2.3自动分词的歧义问题 自动分词的难点是歧义切分,而歧义切分字段 从构成形式上可分为两类一类是交集型歧义切分字 段,一类是多义组合型歧义切分字段
第 5 章 单词与词组的处理与分析 5 . 2 . 3 自动分词的歧义问题 自动分词的难点是歧义切分, 而歧义切分字段 从构成形式上可分为两类: 一类是交集型歧义切分字 段, 一类是多义组合型歧义切分字段