6A第4章机器翻译方法 然而,中间语言的机器翻译方法也常 遭到怀疑。因为是否能够构造出表示各种 不同的自然语言语法、语义的中间语言至 少目前还是未知数。此外,中间语言能不 能把各种语言的所有特征保留下来,又能 很好生成对应的各种语言也是问题。所以, 构造中间语言是一个巨大、复杂的工程, 还包含许多理论研究,迄今为止的探索还 没有好的答案
第 4 章 机器翻译方法 然而,中间语言的机器翻译方法也常 遭到怀疑。因为是否能够构造出表示各种 不同的自然语言语法、语义的中间语言至 少目前还是未知数。此外,中间语言能不 能把各种语言的所有特征保留下来,又能 很好生成对应的各种语言也是问题。所以, 构造中间语言是一个巨大、复杂的工程, 还包含许多理论研究,迄今为止的探索还 没有好的答案
第4章机器翻译方法 4.1.3基于统计的机器翻译方法 基于统计的机器翻译方法,一般不要任何语言学知识,它的基 本原理是实现源语言词汇到目标语言词汇的映射。其思路受到 语音识别研究的启发,因而应用了类似的方法来实现。研究者 用大规模的双语语料库作为基础,对源语言和目标语言词汇的 对应关系进行统计,根据统计规律输出译文。这种方法没有使 用语言知识,主要特征是概率统计与随机过程的方法成为了分 析和生成过程的唯一方法。它的主要内容是双语句对的对齐, 通过词汇同现的可能性来计算一种语言的一个词映射到另一种 语言的一个词(或两个、零个词)的概率。应该说,基于统计 的机器翻译方法的出现改变了机器翻译研究的面貌,从而开始 了机器翻译研究的新阶段。不过,有些学者也对纯统计方法提 出了异议,认为必须引入高层语法、语义模型,显然这是正确 的。否则,基于统计的机器翻译方法不可能产生高质量
第 4 章 机器翻译方法 基于统计的机器翻译方法,一般不要任何语言学知识,它的基 本原理是实现源语言词汇到目标语言词汇的映射。其思路受到 语音识别研究的启发,因而应用了类似的方法来实现。研究者 用大规模的双语语料库作为基础,对源语言和目标语言词汇的 对应关系进行统计,根据统计规律输出译文。这种方法没有使 用语言知识,主要特征是概率统计与随机过程的方法成为了分 析和生成过程的唯一方法。它的主要内容是双语句对的对齐, 通过词汇同现的可能性来计算一种语言的一个词映射到另一种 语言的一个词(或两个、零个词)的概率。应该说,基于统计 的机器翻译方法的出现改变了机器翻译研究的面貌,从而开始 了机器翻译研究的新阶段。不过,有些学者也对纯统计方法提 出了异议,认为必须引入高层语法、语义模型,显然这是正确 的。否则,基于统计的机器翻译方法不可能产生高质量。 4.1.3 基于统计的机器翻译方法
6A第4章机器翻译方法 统计方法最先在语音识别领域取得了成功。由于当 前计算机在运算速度和存储容量方面都有巨大的提高, 可以获取大量的机读语料库,因此在机器翻译中应用统 计方法的条件已经成熟。 机器翻译的噪声通道模型可以视作最早的机器翻译 思想的某中复活,其思路可以这样理解: 假设说话者已经用目标语想好了一句话T,但是说 出的却是源语言句子S。这样一个过程可以看成为编码过 程。而统计的机器翻译就是要从S回推T,可以看成解码 过程。这样,统计的机器翻译任务分为两个部分:一是 建模,即建立翻译的计算方法以及从双语语料库中估计 模型的参数;二是解码,即寻求一种高效搜索算法取有 关概率计算的最大值
第 4 章 机器翻译方法 统计方法最先在语音识别领域取得了成功。由于当 前计算机在运算速度和存储容量方面都有巨大的提高, 可以获取大量的机读语料库,因此在机器翻译中应用统 计方法的条件已经成熟。 机器翻译的噪声通道模型可以视作最早的机器翻译 思想的某中复活,其思路可以这样理解: 假设说话者已经用目标语想好了一句话T,但是说 出的却是源语言句子S。这样一个过程可以看成为编码过 程。而统计的机器翻译就是要从S回推T,可以看成解码 过程。这样,统计的机器翻译任务分为两个部分:一是 建模,即建立翻译的计算方法以及从双语语料库中估计 模型的参数;二是解码,即寻求一种高效搜索算法取有 关概率计算的最大值
6A第4章机器翻译方法 在概率计算的前后,转换是进行有关预处 理和后处理,例如句子当中的日期、时间、数字 人名等应该用适当的类别标志加以替换,以便更 好地进行计算,计算后再换回来。因为这类词不 属于一般的词汇,单词本身在语料库中的出现缺 乏代表性。 建模就是设计各个模型的计算公式。因为直 接计算某个句子出现的概率是比较困难的,语料 库不可能足够大到包含所有句子,必须进行合理 的、适当的简化。这是统计方法的特点,所得到 的结果是近似值,但是因为概率本身就不是精确 的,所以这些近似完全可以接受
第 4 章 机器翻译方法 在概率计算的前后,转换是进行有关预处 理和后处理,例如句子当中的日期、时间、数字、 人名等应该用适当的类别标志加以替换,以便更 好地进行计算,计算后再换回来。因为这类词不 属于一般的词汇,单词本身在语料库中的出现缺 乏代表性。 建模就是设计各个模型的计算公式。因为直 接计算某个句子出现的概率是比较困难的,语料 库不可能足够大到包含所有句子,必须进行合理 的、适当的简化。这是统计方法的特点,所得到 的结果是近似值,但是因为概率本身就不是精确 的,所以这些近似完全可以接受