人工智能与机器翻译 单词与词组分析 主讲:杨宪泽
人工智能与机器翻译 主讲:杨宪泽 ——单词与词组分析
第5章单词与词组的处理与分析 第5章单词与词组的处理与分析 对于机器翻译研究来说,本章的第一任务是要建立语言的 机器词典,这一机器词典是多语言的。例如各自的藏,英,汉语 机器词库。 单词与词组的处理与分析,对于汉语来说,首先必须要进行 单词的自动切分。自动切分歧义部分是解决的难点,不但可能 用到规则推理,而且还可能用到语法分析,语义用分析,更详细 的过程可以结合第六章等一起研究 词语分类和兼类的分析与处理是本章研究的又一重点 本章的最后将研究词处理的一些细节问题
第 5 章 单词与词组的处理与分析 对于机器翻译研究来说,本章的第一任务是要建立语言的 机器词典, 这一机器词典是多语言的。例如各自的藏, 英, 汉语 机器词库。 单词与词组的处理与分析, 对于汉语来说, 首先必须要进行 单词的自动切分。自动切分歧义部分是解决的难点, 不但可能 用到规则推理, 而且还可能用到语法分析, 语义用分析, 更详细 的过程可以结合第六 章等一起研究。 词语分类和兼类的分析与处理是本章研究的又一重点。 本章的最后将研究词处理的一些细节问题。 第 5 章 单词与词组的处理与分析
第5章单词与词组的处理与分析 O HD 5.1机器词典概述 人工翻译离不开词典,当然,机器翻译也离 不开机器词典。机器词典也被称为电子词典,简 称词典。机器词典的作用在机器翻译中是最重要 的,因为做任何机器翻译工作都必须通过查机器 词典来得到相关的翻译元素单词和词组。如何 有效的组织建立机器词典,如何更好地利用机 器词典中包含的各种知识,是一个值得深入研究 的课题
第 5 章 单词与词组的处理与分析 人工翻译离不开词典,当然,机器翻译也离 不开机器词典。机器词典也被称为电子词典,简 称词典。机器词典的作用在机器翻译中是最重要 的,因为做任何机器翻译工作都必须通过查机器 词典来得到相关的翻译元素---单词和词组。如何 有效的组织、建立机器词典,如何更好地利用机 器词典中包含的各种知识,是一个值得深入研究 的课题。 5 . 1 机器词典概述
第5章单词与词组的处理与分析 5.1.1基于分析和转换的机器翻译方法 机器词典的作用: (1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现 有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了 性能的进一步提高。因为语言词汇是一个开放的集合,无论建立多么庞大的词 典,都不可能穷举所有的词。而且,随着时间的推移,还会出现大量的新词。因 此,只有尽可能的扩充机器词典的规模,才可能使机器翻译系统更实用,更会被 更多的行业、更多的人所接受。 (2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量 就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大 的数量,而且要有尽可能高的质量,只要这样,才可能是机器翻译的质量更高。 (3)电子词典(机器词典)不仅可以用于机器翻译,而且也可以用在自然语 言理解、自然语言处理诸多方面。因此,电子词典(机器词典)是大规模知识工 程的基础工作,它可以为知识系统提供一个基本的知识源
第 5 章 单词与词组的处理与分析 5. 1 . 1 基于分析和转换的机器翻译方法 机器词典的作用: (1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现 有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了 性能的进一步提高。因为语言词汇是一个开放的集合,无论建立多么庞大的词 典,都不可能穷举所有的词。而且,随着时间的推移,还会出现大量的新词。因 此,只有尽可能的扩充机器词典的规模,才可能使机器翻译系统更实用,更会被 更多的行业、更多的人所接受。 (2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量, 就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大 的数量,而且要有尽可能高的质量,只要这样,才可能是机器翻译的质量更高。 (3)电子词典(机器词典)不仅可以用于机器翻译,而且也可以用在自然语 言理解、自然语言处理诸多方面。因此,电子词典(机器词典)是大规模知识工 程的基础工作,它可以为知识系统提供一个基本的知识源
第5章单词与词组的处理与分析 对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大 量的专业词汇。因此,机器翻译系统的词典又可以分为通用词典和专业词典两部 分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词 典、动词词典、成语词典等等。 机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结 构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器 翻译系统的整体翻译速度。 机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混 合型三种类型;从索引格式看,可以分为级索引和多级索引等等。 词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占 满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必 须依据最长词语确定字段长度,而相当多的短词语将浪费巨大的存储空间。所以 般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现
第 5 章 单词与词组的处理与分析 对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大 量的专业词汇。因此,机器翻译系统的词典又可以分为通用词典和专业词典两部 分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词 典、动词词典、成语词典等等。 机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结 构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器 翻译系统的整体翻译速度。 机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混 合型三种类型;从索引格式看,可以分为一级索引和多级索引等等。 词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占 满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必 须依据最长词语确定字段长度,而相当多的短词语将浪费巨大的存储空间。所以, 一般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现