数学之美 信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡 量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称 为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好 坏。一个模型的复杂度越小,模型越好。李开复博士在介绍他发 明的Sphinx语音识别系统时谈到,如果不用任何语言模型(即 零元语言模型)时,复杂度为997,也就是说句子中每个位置有 997个可能的单词可以填入。如果(二元)语言模型只考虑前后 词的搭配不考虑搭配的概率时,复杂度为60。虽然它比不用语 言模型好很多,但是和考虑了搭配概率的二元语言模型相比要差 很多,因为后者的复杂度只有20。 信息论中仅次于熵的另外两个重要的概念是“互信息” (Mutua1 Information)和“相对熵”(Kullback-Leibler Divergence)。 “互信息”是信息熵的引申概念,它是对两个随机事件相关 性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的 相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队 几乎无关。互信息就是用来量化度量这种相关性的。在自然语言 处理中,经常要度量一些语言现象的相关性。比如在机器翻译中, 最难的问题是词义的二义性(歧义性)问题。比如Bush一词可 以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上 届总统候选人凯里Kerry的名字被一些机器翻译系统翻译成了 "爱尔兰的小母牛",Kerry在英语中另外一个意思。)那么如何 27
数学之美 信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡 量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称 为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好 坏。一个模型的复杂度越小,模型越好。李开复博士在介绍他发 明的 Sphinx 语音识别系统时谈到,如果不用任何语言模型(即 零元语言模型)时,复杂度为 997,也就是说句子中每个位置有 997 个可能的单词可以填入。如果(二元)语言模型只考虑前后 词的搭配不考虑搭配的概率时,复杂度为 60。虽然它比不用语 言模型好很多,但是和考虑了搭配概率的二元语言模型相比要差 很多,因为后者的复杂度只有 20。 信息论中仅次于熵的另外两个重要的概念是“互信息” (Mutual Information) 和“相对熵”(Kullback-Leibler Divergence)。 “互信息”是信息熵的引申概念,它是对两个随机事件相关 性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的 相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队 几乎无关。互信息就是用来量化度量这种相关性的。在自然语言 处理中,经常要度量一些语言现象的相关性。比如在机器翻译中, 最难的问题是词义的二义性(歧义性)问题。比如 Bush 一词可 以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上 届总统候选人凯里 Kerry 的名字被一些机器翻译系统翻译成了 "爱尔兰的小母牛",Kerry 在英语中另外一个意思。)那么如何 27
数学之美 正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等 等。其实,至今为止,没有一种语法能很好解决这个问题,真正 实用的方法是使用互信息。具体的解决办法大致如下:首先从大 量文本中找出和总统布什一起出现的互信息最大的一些词,比如 总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和 灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。 有了这两组词,在翻译Bush时,看看上下文中哪类相关的词多 就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让 斯基(Yarowsky)提出的。 当时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 Mitch Marcus))教授的博士生,他很多时间泡在贝尔实验室丘 奇等人的研究室里。也许是急于毕业,他在吉尔等人的帮助下想 出了一个最快也是最好地解决翻译中的二义性,就是上述的方 法,这个看上去简单的方法效果好得让同行们大吃一惊。雅让斯 基因而只花了三年就从马库斯那里拿到了博士,而他的师兄弟们 平均要花六年时间。 信息论中另外一个重要的概念是“相对熵”,在有些文献中它 被称为成“交又熵”。在英语中是Kullback-Leibler Divergence,是以它的两个提出者库尔贝克和莱伯勒的名字命名 的。相对熵用来衡量两个正函数是否相似,对于两个完全相同的 函数,它们的相对熵等于零。在自然语言处理中可以用相对熵来 衡量两个常用词(在语法上和语义上)是否同义,或者两篇文章 28
数学之美 正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等 等。其实,至今为止,没有一种语法能很好解决这个问题,真正 实用的方法是使用互信息。具体的解决办法大致如下:首先从大 量文本中找出和总统布什一起出现的互信息最大的一些词,比如 总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和 灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。 有了这两组词,在翻译 Bush 时,看看上下文中哪类相关的词多 就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让 斯基(Yarowsky)提出的。 当时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 (Mitch Marcus) 教授的博士生,他很多时间泡在贝尔实验室丘 奇等人的研究室里。也许是急于毕业,他在吉尔等人的帮助下想 出了一个最快也是最好地解决翻译中的二义性,就是上述的方 法,这个看上去简单的方法效果好得让同行们大吃一惊。雅让斯 基因而只花了三年就从马库斯那里拿到了博士,而他的师兄弟们 平均要花六年时间。 信息论中另外一个重要的概念是“相对熵”,在有些文献中它 被称为成“交叉熵”。在英语中是 Kullback-Leibler Divergence,是以它的两个提出者库尔贝克和莱伯勒的名字命名 的。相对熵用来衡量两个正函数是否相似,对于两个完全相同的 函数,它们的相对熵等于零。在自然语言处理中可以用相对熵来 衡量两个常用词(在语法上和语义上)是否同义,或者两篇文章 28
数学之美 的内容是否相近等等。利用相对熵,我们可以到处信息检索中最 重要的一个概念:词频率-逆向文档频率(TF/IDF)。我们下回会 介绍如何根据相关性对搜索出的网页进行排序,就要用的餐 TF/IDP的概念。另外,在新闻的分类中也要用到相对熵和 TF/IDF。 对信息论有兴趣又有一定数学基础的读者,可以阅读斯坦福 大学托马斯.科弗(Thomas Cover)教授的专著"信息论基础 "(Elements of Information Theory): http://www.amazon.com/gp/product/0471062596/ref=nosi m/103-7880775-7782209?n=283155 http://www.cnforyou.com/query/bookdetail1.asp?viBook Code=17909 科弗教授是当今最权威的信息论专家。 1.8.数学之美系列八一贾里尼克的故事和现代语言处理 2006年6月8日上午09:15:00 发表者:Google研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼 克这个名字。事实上,现代语音识别和自然语言处理确实是和它 的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼 29
数学之美 的内容是否相近等等。利用相对熵,我们可以到处信息检索中最 重要的一个概念:词频率-逆向文档频率(TF/IDF)。我们下回会 介绍如何根据相关性对搜索出的网页进行排序,就要用的餐 TF/IDF 的概念。另外,在新闻的分类中也要用到相对熵和 TF/IDF。 对信息论有兴趣又有一定数学基础的读者,可以阅读斯坦福 大学托马斯.科弗 (Thomas Cover) 教授的专著 "信息论基础 "(Elements of Information Theory): http://www.amazon.com/gp/product/0471062596/ref=nosi m/103-7880775-7782209?n=283155 http://www.cnforyou.com/query/bookdetail1.asp?viBook Code=17909 科弗教授是当今最权威的信息论专家。 1.8. 数学之美系列八 — 贾里尼克的故事和现代语言处理 2006 年 6月8日 上午 09:15:00 发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼 克这个名字。事实上,现代语音识别和自然语言处理确实是和它 的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼 29
数学之美 克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普 普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口 对我讲的。 弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的 犹太家庭。他的父母原本打算送他去英国的公学(私立学校)读 书。为了教他德语,还专门请的一位德国的家庭女教师,但是第 二次世界大战完全打碎了他们的梦想。他们先是被从家中赶了出 去,流浪到布拉格。他的父亲死在了集中营,弗莱德自己成天在 街上玩耍,完全荒废了学业。二战后,当他再度回到学校时,他 的成绩一塌糊涂,全部是D,但是很快他就赶上了班上的同学。 不过,他在小学时从来没有得过A。1949年,他的母亲带领全 家移民美国。在美国,贾里尼克一家生活非常贫困,全家基本是 靠母亲做点心卖钱为生,弗莱德自己十四五岁就进工厂打工补助 全家。 贾里尼克最初想成为一个律师,为他父亲那样的冤屈者辩护, 但他很快意识到他那浓厚的外国口音将使他在法庭上的辩护很 吃力。贾里尼克的第二个理想是成为医生,他想进哈佛大学医学 院,但经济上他无法承担医学院8年高昂的学费。与此同时麻 省理工学院给于了他一份(为东欧移民设的)全额奖学金。贾里 尼克决定到麻省理工学电机工程。在那里,他遇到了信息论的鼻 祖香农博士,和语言学大师贾格布森Roman Jakobson(他提出 了著名的通信六功能)[注释一],后来贾里尼克又陪着太太听最 30
数学之美 克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普 普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口 对我讲的。 弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的 犹太家庭。他的父母原本打算送他去英国的公学(私立学校)读 书。为了教他德语,还专门请的一位德国的家庭女教师,但是第 二次世界大战完全打碎了他们的梦想。他们先是被从家中赶了出 去,流浪到布拉格。他的父亲死在了集中营,弗莱德自己成天在 街上玩耍,完全荒废了学业。二战后,当他再度回到学校时,他 的成绩一塌糊涂, 全部是 D,但是很快他就赶上了班上的同学。 不过,他在小学时从来没有得过 A。1949 年,他的母亲带领全 家移民美国。在美国,贾里尼克一家生活非常贫困,全家基本是 靠母亲做点心卖钱为生,弗莱德自己十四五岁就进工厂打工补助 全家。 贾里尼克最初想成为一个律师,为他父亲那样的冤屈者辩护, 但他很快意识到他那浓厚的外国口音将使他在法庭上的辩护很 吃力。贾里尼克的第二个理想是成为医生,他想进哈佛大学医学 院,但经济上他无法承担医学院 8 年高昂的学费。与此同时麻 省理工学院给于了他一份(为东欧移民设的)全额奖学金。贾里 尼克决定到麻省理工学电机工程。在那里,他遇到了信息论的鼻 祖香农博士,和语言学大师贾格布森 Roman Jakobson (他提出 了著名的通信六功能)[注释一],后来贾里尼克又陪着太太听最 30
数学之美 伟大的语言学家乔姆斯基(Noam Chomsky)的课。这三位大师对贾 里尼克今后的研究方向-利用信息论解决语言问题产生的重要 影响。 贾里尼克从麻省理工获得博士学位后,在哈佛大学教了一年 书,然后到康乃尔大学任教。他之所以选择康乃尔大学,是因为 找工作时和那里的一位语言学家谈得颇为投机。当时那位教授表 示愿意和贾里尼克在利用信息论解决语言问题上合作。但是,等 贾里尼克到康乃尔以后,那位教授表示对语言学在没有兴趣而转 向写歌剧了。贾里尼克对语言学家的坏印象从此开始。加上后来 他在IBM时发现语言学家们嘴上头头是道,干起活来高不成低 不就,对语言学家从此深恶痛绝。他甚至说:"我每开除一名语 言学家,我的语音识别系统错误率就降低一个百分点。”这句话 后来在业界广为流传,为每一个搞语音识别和语言处理的人所熟 知。 贾里尼克在康乃尔十年磨一剑,潜心研究信息论,终于悟出 了自然语言处理的真谛。1972年,贾里尼克到IBM华生 实验室(IBMT.G.W a t s o n L a b s)做学术休 假,无意中领导了语音识别实验室,两年后他在康乃尔和IBM 之间选择了留在IBM。在那里,贾里尼克组建了阵容空前绝后 强大的研究队伍,其中包括他的著名搭档波尔(Bahl),著名的 语音识别Dragon公司的创始人贝克夫妇,解决最大熵迭代算法 的达拉皮垂(Della Pietra)孪生兄弟,BCJR算法的另外两个共 31
数学之美 伟大的语言学家乔姆斯基(Noam Chomsky)的课。这三位大师对贾 里尼克今后的研究方向--利用信息论解决语言问题产生的重要 影响。 贾里尼克从麻省理工获得博士学位后,在哈佛大学教了一年 书,然后到康乃尔大学任教。他之所以选择康乃尔大学,是因为 找工作时和那里的一位语言学家谈得颇为投机。当时那位教授表 示愿意和贾里尼克在利用信息论解决语言问题上合作。但是,等 贾里尼克到康乃尔以后,那位教授表示对语言学在没有兴趣而转 向写歌剧了。贾里尼克对语言学家的坏印象从此开始。加上后来 他在 IBM 时发现语言学家们嘴上头头是道,干起活来高不成低 不就,对语言学家从此深恶痛绝。他甚至说:"我每开除一名语 言学家,我的语音识别系统错误率就降低一个百分点。" 这句话 后来在业界广为流传,为每一个搞语音识别和语言处理的人所熟 知。 贾里尼克在康乃尔十年磨一剑,潜心研究信息论,终于悟出 了自然语言处理的真谛。1972年,贾里尼克到IBM 华生 实验室(IBM T.G.Watson Labs)做学术休 假,无意中领导了语音识别实验室,两年后他在康乃尔和IBM 之间选择了留在IBM。在那里,贾里尼克组建了阵容空前绝后 强大的研究队伍,其中包括他的著名搭档波尔(Bahl),著名的 语音识别 Dragon 公司的创始人贝克夫妇,解决最大熵迭代算法 的达拉皮垂(Della Pietra)孪生兄弟,BCJR 算法的另外两个共 31