数学之美 同提出者库克(Cocke)和拉维夫(Raviv),以及第一个提出机器翻 译统计模型的布朗。 七十年代的IBM有点像九十年代的微软和今天的Google,. 给于杰出科学家作任何有兴趣研究的自由。在那种宽松的环境 里,贾里尼克等人提出了统计语音识别的框架结构。在贾里尼 克以前,科学家们把语音识别问题当作人工智能问题和模式匹配 问题。而贾里尼克把它当成通信问题,并用两个隐含马尔可夫模 型(声学模型和语言模型)把语音识别概括得清清楚楚。这个框 架结构对至今的语音和语言处理有着深远的影响,它从根本上使 得语音识别有实用的可能。贾里尼克本人后来也因此当选美国 工程院院士。 贾里尼克和波尔,库克以及拉维夫对人类的另一大贡献是 BCJR算法,这是今天数字通信中应用的最广的两个算法之一(另 一个是维特比算法)。有趣的是,这个算法发明了二十年后,才 得以广泛应用。IBM于是把它列为了IBM有史以来对人类最大 贡献之一,并贴在加州Amaden实现室墙上。遗憾的是BCJR四 个人已经全部离开IBM,有一次IBM的通信部门需要用这个算 法,还得从斯坦福大学请一位专家去讲解,这位专家看到IBM橱 窗里的成就榜,感慨万分。 贾里尼克和IBM一批最杰出的科学家在九十年代初离开了 IBM,他们大多数在华尔街取得了巨大的成功。贾里尼克的书生 气很浓,于是去约翰霍普金斯大学建立了世界著名的CLSP实验 32
数学之美 同提出者库克(Cocke)和拉维夫(Raviv),以及第一个提出机器翻 译统计模型的布朗。 七十年代的 IBM 有点像九十年代的微软和今天的 Google, 给于杰出科学家作任何有兴趣研究的自由。在那种宽松的环境 里,贾里尼克等人提出了统计语音识别的框架结构。 在贾里尼 克以前,科学家们把语音识别问题当作人工智能问题和模式匹配 问题。而贾里尼克把它当成通信问题,并用两个隐含马尔可夫模 型(声学模型和语言模型)把语音识别概括得清清楚楚。这个框 架结构对至今的语音和语言处理有着深远的影响,它从根本上使 得语音识别有实用的可能。 贾里尼克本人后来也因此当选美国 工程院院士。 贾里尼克和波尔,库克以及拉维夫对人类的另一大贡献是 BCJR 算法,这是今天数字通信中应用的最广的两个算法之一(另 一个是维特比算法)。有趣的是,这个算法发明了二十年后,才 得以广泛应用。IBM 于是把它列为了 IBM 有史以来对人类最大 贡献之一,并贴在加州 Amaden 实现室墙上。遗憾的是 BCJR 四 个人已经全部离开 IBM,有一次 IBM 的通信部门需要用这个算 法,还得从斯坦福大学请一位专家去讲解,这位专家看到 IBM 橱 窗里的成就榜,感慨万分。 贾里尼克和 IBM 一批最杰出的科学家在九十年代初离开了 IBM,他们大多数在华尔街取得了巨大的成功。贾里尼克的书生 气很浓,于是去约翰霍普金斯大学建立了世界著名的 CLSP 实验 32
数学之美 室。每年夏天,贾里尼克邀请世界上20-30名顶级的科学家和 学生到CLSP一起工作,使得CLSP成为世界上语音和语言处理 的中心之一。 贾里尼克治学极为严谨,对学生要求也极严。他淘汰学生的 比例极高,即使留下来的,毕业时间也极长。但是,另一方面, 贾里尼克也千方百计利用自已的影响力为学生的学习和事业创 造方便。贾里尼克为组里的每一位学生提供从进组第一天到离开 组最后一天全部的学费和生活费。他还为每一位学生联系实习机 会,并保证每位学生在博士生阶段至少在大公司实习一次。从他 那里拿到博士学位的学生,全部任职于著名实验室,比如IBM,微 软,AT&T和Google的实验室。为了提高外国人的英语水平, 贾里尼克用自己的经费为他们请私人英语教师。 贾里尼克生活俭朴,一辆老式丰田车开了二十多年,比组里 学生的车都破。他每年都邀请组里的学生和教授到家里做客,很 多毕业了的学生也专程赶来聚会。在那里,他不再谈论学术问题, 而会谈些巩俐的电影(他太太是哥伦比亚大学电影专业的教授), 或是某著名教授被拉斯韦加斯的赌馆定为不受欢迎的人等等。但 是他聚会的食物实在难吃,无非是些生胡萝卜和芹莱。后来贾里 尼克掏钱让系里另一个教授承办聚会,那个教授每次请专业大厨 在家作出极丰盛的晚宴,并准备许多美酒,从此这种聚会就转移 到那个教授家了。 33
数学之美 室。每年夏天,贾里尼克邀请世界上 20-30 名顶级的科学家和 学生到 CLSP 一起工作,使得 CLSP 成为世界上语音和语言处理 的中心之一。 贾里尼克治学极为严谨,对学生要求也极严。他淘汰学生的 比例极高,即使留下来的,毕业时间也极长。但是,另一方面, 贾里尼克也千方百计利用自己的影响力为学生的学习和事业创 造方便。贾里尼克为组里的每一位学生提供从进组第一天到离开 组最后一天全部的学费和生活费。他还为每一位学生联系实习机 会,并保证每位学生在博士生阶段至少在大公司实习一次。从他 那里拿到博士学位的学生,全部任职于著名实验室,比如 IBM, 微 软,AT&T 和 Google 的实验室。为了提高外国人的英语水平, 贾里尼克用自己的经费为他们请私人英语教师。 贾里尼克生活俭朴,一辆老式丰田车开了二十多年,比组里 学生的车都破。他每年都邀请组里的学生和教授到家里做客,很 多毕业了的学生也专程赶来聚会。在那里,他不再谈论学术问题, 而会谈些巩俐的电影(他太太是哥伦比亚大学电影专业的教授), 或是某著名教授被拉斯韦加斯的赌馆定为不受欢迎的人等等。但 是他聚会的食物实在难吃,无非是些生胡萝卜和芹菜。后来贾里 尼克掏钱让系里另一个教授承办聚会,那个教授每次请专业大厨 在家作出极丰盛的晚宴,并准备许多美酒,从此这种聚会就转移 到那个教授家了。 33
数学之美 除了巩俐的电影,贾里尼克对中国的了解就是清华大学和青 岛啤酒了。他有时会把两个名字搞混,有两次被香港科技大学的 Pascale冯教授抓住。 贾里尼克说话心直口快,不留余地。在他面前谈论学术一定 要十分严谨,否则很容易被他抓住辫子。除了刚才提到的对语言 学家略有偏见的评论,他对许多世界级的大师都有过很多“刻薄” 但又实事求是的评论,这些评论在业界广为流传。贾里尼克在四 十多年的学术生涯中居然没有得罪太多的人,可以说是一个奇 迹。 注释一: 贾格布森的通信模型 1上下文 2 信息 3 发送着 4接收者 5 信道 6编码 34
数学之美 除了巩俐的电影,贾里尼克对中国的了解就是清华大学和青 岛啤酒了。他有时会把两个名字搞混,有两次被香港科技大学的 Pascale 冯教授抓住。 贾里尼克说话心直口快,不留余地。在他面前谈论学术一定 要十分严谨,否则很容易被他抓住辫子。除了刚才提到的对语言 学家略有偏见的评论,他对许多世界级的大师都有过很多“刻薄” 但又实事求是的评论,这些评论在业界广为流传。贾里尼克在四 十多年的学术生涯中居然没有得罪太多的人 ,可以说是一个奇 迹。 注释一: 贾格布森的通信模型 1 上下文 2 信息 3 发送着 --------------- 4 接收者 5 信道 6 编码 34
数学之美 1.9.数学之美系列九一如何确定网页和查询的相关性 2006年6月27日上午09:53:00 发表者:吴军,Google研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量 网页的质量(Page Rank))。我们今天谈谈如何确定一个网页和某 个查询的相关性。了解了这四个方面,一个有一定编程基础的读 者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院 系建立一个小的搜索引擎。] 我们还是看上回的例子,查找关于“原子能的应用”的网页。 我们第一步是在索引中找到包含这三个词的网页(详见关于布尔 运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百 万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们 应该根据网页和查询“原子能的应用”的相关性对这些网页进行 排序。因此,这里的关键问题是如何度量网页和查询的相关性。 我们知道,短语“原子能的应用”可以分成三个关键词:原 子能、的、应用。根据我们的直觉,我们知道,包含这三个词多 的网页应该比包含它们少的网页相关。当然,这个办法有一个明 显的漏洞,就是长的网页比短的网页占便宜,因为长的网页总的 来讲包含的关键词要多些。因此我们需要根据网页的长度,对关 键词的次数进行归一化,也就是用关键词的次数除以网页的总字 35
数学之美 1.9. 数学之美系列九 — 如何确定网页和查询的相关性 2006 年 6 月 27 日 上午 09:53:00 发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量 网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某 个查询的相关性。了解了这四个方面,一个有一定编程基础的读 者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院 系建立一个小的搜索引擎。] 我们还是看上回的例子,查找关于“原子能的应用”的网页。 我们第一步是在索引中找到包含这三个词的网页(详见关于布尔 运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百 万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们 应该根据网页和查询“原子能的应用”的相关性对这些网页进行 排序。因此,这里的关键问题是如何度量网页和查询的相关性。 我们知道,短语“原子能的应用”可以分成三个关键词:原 子能、的、应用。根据我们的直觉,我们知道,包含这三个词多 的网页应该比包含它们少的网页相关。当然,这个办法有一个明 显的漏洞,就是长的网页比短的网页占便宜,因为长的网页总的 来讲包含的关键词要多些。因此我们需要根据网页的长度,对关 键词的次数进行归一化,也就是用关键词的次数除以网页的总字 35
数学之美 数。我们把这个商称为“关键词的频率”,或者“单文本词汇频 率”(Term Frequency),比如,在某个一共有一千词的网页中“原 子能”、“的”和“应用”分别出现了2次、35次和5次,那 么它们的词频就分别是0.002、0.035和0.005。我们将这三 个数相加,其和0.042就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。概括地讲,如果一个查询包含关 键词w1,w2,..,wN,它们在一篇特定网页中的词频分别是: TF1,TF2,..,TFN。(TF:term frequency)。那么,这个 查询和该网页的相关性就是: TF1+TF2+...+TFN。 读者可能已经发现了又一个漏洞。在上面的例子中,词“的” 站了总词频的80%以上,而它对确定网页的主题几乎没有用。 我们称这种词叫“应删除词”(Stopwords),也就是说在度量相 关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、 “和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后, 上述网页的相似度就变成了0.007,其中“原子能”贡献了0.002, “应用”贡献了0.005。 细心的读者可能还会发现另一个小的漏洞。在汉语中,“应用” 是个很通用的词,而“原子能”是个很专业的词,后者在相关性 排名中比前者重要。因此我们需要给汉语中的每一个词给一个权 重,这个权重的设定必须满足下面两个条件: 36
数学之美 数。我们把这个商称为“关键词的频率”,或者“单文本词汇频 率”(Term Frequency),比如,在某个一共有一千词的网页中“原 子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那 么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三 个数相加,其和 0.042 就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。概括地讲,如果一个查询包含关 键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个 查询和该网页的相关性就是: TF1 + TF2 + ... + TFN。 读者可能已经发现了又一个漏洞。在上面的例子中,词“的” 站了总词频的 80% 以上,而它对确定网页的主题几乎没有用。 我们称这种词叫“应删除词”(Stopwords),也就是说在度量相 关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、 “和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后, 上述网页的相似度就变成了 0.007,其中“原子能”贡献了 0.002, “应用”贡献了 0.005。 细心的读者可能还会发现另一个小的漏洞。在汉语中,“应用” 是个很通用的词,而“原子能”是个很专业的词,后者在相关性 排名中比前者重要。因此我们需要给汉语中的每一个词给一个权 重,这个权重的设定必须满足下面两个条件: 36