通过泛化实例得到翻译模板 ■已有实例: Karl Marx was born in Trier, Germany in May 5, 1818 卡尔马克思于1818年5月5日出生在德国特里尔城。 泛化: <Person> was born in <City> in <Date> < Person>于<Date>出生在<Ciy> 对齐 <Person>+<Person> <City> <<City> <Date><)<City> 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ 16
2021年2月1日5时18分 语言信息处理--机器翻译II 16 通过泛化实例得到翻译模板 已有实例: – Karl Marx was born in Trier, Germany in May 5, 1818. – 卡尔·马克思于1818年5月5日出生在德国特里尔城。 泛化: – <Person> was born in <City> in <Date> – <Person>于<Date>出生在<City> 对齐 – <Person> ↔ <Person> – <City> ↔ <City> – <Date> ↔ <City>
通过比较实例得到翻译模板 已有两对翻译实例: 我给玛丽一支笔 I gave Mary a pen 我给汤姆一本书 I gave Tom a book 双侧单语句子分别比较,得到: 我给#一#Y#Z|gve#Wa#U ■查找变量的对应关系: #X←→# #Y台→q #Z←→# 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 17 通过比较实例得到翻译模板 已有两对翻译实例: – 我给玛丽一支笔 ↔ I gave Mary a pen. – 我给汤姆一本书 ↔ I gave Tom a book. 双侧单语句子分别比较,得到: – 我给#X 一#Y #Z ↔ I give #W a #U. 查找变量的对应关系: – #X ↔ #W – #Y ↔ φ – #Z ↔ #U
实例库的匹配1 ■实例匹配的目的是将输入句子分解成语料库中实 例片断的组合,这是基于实例的机器翻译的关键 问题之一,实例匹配的各种方法有很大的差异 还没有那种做法显示出明显的优势; ■实例库匹配的效率问题:由于实例库规模较大, 通常需要建立倒排索引; ■实例库匹配的其他问题: 实例片断的分解 实例片断的组合: 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ 18
2021年2月1日5时18分 语言信息处理--机器翻译II 18 实例库的匹配1 实例匹配的目的是将输入句子分解成语料库中实 例片断的组合,这是基于实例的机器翻译的关键 问题之一,实例匹配的各种方法有很大的差异, 还没有那种做法显示出明显的优势; 实例库匹配的效率问题:由于实例库规模较大, 通常需要建立倒排索引; 实例库匹配的其他问题: – 实例片断的分解: – 实例片断的组合:
实例库的匹配2 实例片断的分解 实例库中的句子往往太长,直接匹配成功率太 低,为了提高实例的重用性,需要将实例库中 的句子分解为片断 几种通常的做法: ■按标点符号分解 ■任意分解 ■通过组块分析进行分解 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ 19
2021年2月1日5时18分 语言信息处理--机器翻译II 19 实例库的匹配2 实例片断的分解 – 实例库中的句子往往太长,直接匹配成功率太 低,为了提高实例的重用性,需要将实例库中 的句子分解为片断 – 几种通常的做法: 按标点符号分解 任意分解 通过组块分析进行分解
实例库的匹配3 实例片断的组合 个被翻译的句子,往往可以通过各种不同的 实例片断进行组合,如何选择一个最好的组合? 简单的做法 ■最大匹配 ■最大概率法:选择概率乘积最大的片断组合 有点像汉语词语切分问题 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ 20
2021年2月1日5时18分 语言信息处理--机器翻译II 20 实例库的匹配3 实例片断的组合 – 一个被翻译的句子,往往可以通过各种不同的 实例片断进行组合,如何选择一个最好的组合? – 简单的做法: 最大匹配 最大概率法:选择概率乘积最大的片断组合 – 有点像汉语词语切分问题