从建筑学的角度来说,车库基本上是个简陋的地方。但在硅谷,车库 有一种特殊的创业含义:许多伟大的硅谷技术公司在此诞生或至少从车库 中孵化而来。这一趋势并非从20世纪90年代的互联网泡沫开始。在互 联网泡沫出现的50多年前,也就是1939年,当世界经济仍未从大萧条 的影响中走出来时,惠普(Hewlett-Packard)就在加利福尼亚州帕洛阿尔 托(Palo Alto)戴夫·休利特(Dave Hewlett)的车库中逐渐成形了。几 十年之后,史蒂夫·乔布斯(Steve Jobs)和史蒂夫·沃兹尼亚克(Steve Wozniak)于1976年在加利福尼亚州洛斯拉图斯乔布斯的车库中创业,之 后创建了今天传奇的苹果计算机公司。(尽管传说苹果公司创办于车库, 乔布斯和沃兹尼亚克一开始其实是从一间卧室开始的。空间很快就不够用 了,于是他们转移到了车库。)不过,和惠普和苹果的成功故事相比,一 个名为谷歌的搜索引擎的创办过程更令人惊叹。谷歌从加利福尼亚州门洛 帕克市的一间车库开始,并于1998年9月注册成立公司。 那时,谷歌事实上已经运营自己的搜索引擎一年多了一最开始是在 斯坦福大学的服务器上,谷歌的两位联合创始人都是斯坦福博土生。直到 斯坦福大学再也不能承受这一日益受欢迎的服务所需要的带宽,拉里·佩 奇和谢尔盖·布林才把公司转移到了如今著名的门洛帕克车库。他们肯定
德未九大法 做了些正确的事,因为在他们正式成立公司3个月后,美国《个人计算机 杂志》(PC Magazine)就宣布谷歌是1998年美国排名前一百的网站之一。 这也是我们的故事真正开始的地方:在当年《个人计算机杂志》的评 论中,谷歌的精英管理层因为谷歌“以超乎寻常的技巧返回相关度极高的 结果”而获奖。你也许还记得上一章提到过,第一个商业搜索引擎于4年 前的1994年发布。还在车库里的谷歌怎么能弥补4年的巨大差距,在搜 索质量上超越已经很受欢迎的Lycos和AltaVista呢?这一问题的答案可不 简单。但最重要的因素之一 —尤其是在网络搜索早期—就是谷歌用来 对其搜索结果进行排名的创新算法:一个被称为PageRank的著名算法。 “PageRank”是个双关词:它既是一种对网页排名的算法,也是其主 要发明者拉里·佩奇的排名算法。佩奇和布林在1998年的一篇学术会 议论文《解析大规模超文本网络搜索引擎》(the Anatomy of a Large-Scale ypertextual Web Search Engine)中发表了这一算法。正如论文标题所暗 示的,这篇论文的内容不止是描述PageRank。事实上,这是对I998年存 在的谷歌系统的完整描述。但藏在这一系统技术细节中的,是对也许是 21世纪出现的第一个算法瑰宝的描述:PageRank算法。在本章,我们将 探索这一算法如何以及为什么能在草垛中寻针,并持续为搜索查询提供最 相关的结果一也是排名最靠前的命中。 超链接把戏 你很有可能已经知道了超链接是什么:超链接是网页上的一个短语, 当你点击它时,你将被带到另一个网页。绝大多数网络浏览器用蓝色底线 显示超链接,以便能轻易识别。 令人意外的是,超链接也是老想法。1945年一大约在同时开始开 发电子计算机一美国工程师范内瓦·布什(Vannevar Bush)发表了一 PDF电子书基地http:/dayol982.400gb.com
PDF电子书基地 http://dayo1982.400gb.com
第三PageRank-—i让谷璃飞的技术 篇极具前瞻性的论文《诚若所思》。在这篇涉猎广泛的论文中,布什描述 了大量可能的新技术,包括一台被称作麦麦克斯(memex)的机器。麦麦 克斯可以存储文件并自动进行素引,但其功能远不止这些。麦麦克斯允许 “关联索引.任何被选中的东西都能立即自动选择另一个东西”一换 句话说,一种早期的超链接。 超链接把戏(the hyperlink trick)的原理。上面显示了6个网,每个框都代表I个网页。其 中2个网页是妙蛋莱谱,其余4个网页都有这些莱谱的超链接。超链接把戏认为伯特的网页比歌尼 的网页排名高,为伯特有三个链入能接((incoming link),而尼的只有一个。 超链接自1945年就已出现。它们是搜索引擎用来进行排名最重要的工 具之一,而且是谷歌PageRank:技术的基础。接下来,我们将开始以最大 的热情探索PageRank技术。 理解PageRank的第一步是一个名为超链接把戏的简单想法。用一个 例子就能非常容易地解释这个把戏。假设你对学习如何制作妙蛋感兴趣, 并且用网络搜索了这一主题。如今,任何一次真正搜索炒蛋的网络搜索都 会出现数百万个命中,但为方便起见,让我们想象只有两个网页出现:其 中一个是“欧尼的炒蛋菜谱”,而另一个则是“伯特的炒蛋菜谱”。这两个 网页都出现在上图中,与之一道的是拥有这些菜谱超链接的网页。还是为 5
塞未来的九大,结 了方便起见,让我们想象这四个包含超链接的网页是整个互联网上仅有的 链接到两个莱谱网页之一的网页。图中底部画线的文字就代表超链接,而 箭头则表示链接的指向。 问题是,这两个命中哪个排名应该更高?伯特还是欧尼?人们在阅读 链向这两份莱谱的网页并作出评价上不会有太大的问题。看起来这两份菜 谱都很合理,但人们对伯特菜谱的反响要更为热烈一些。因此,在没有给 出其他信息的情况下,伯特的菜谱比欧尼的菜谱排名更高可能会更合理。 不幸的是,计算机并不擅长理解网页的真实意思,因此搜索引擎检查 这四个链向命中的网页,并对每份菜谱获推荐的强烈程度进行评估也不太 可能。另外,计算机在计算方面非常优秀。一种简单方法就是只计算链向 每份菜谱的网页数一在这个例子中,一个网页链向欧尼的菜谱,三个网 页链向伯特的菜谱一并根据这些菜谱的链人链接数对菜谱排名。当然, 这种方法远不如让人阅读所有页面并手动排名精确,但无疑是-一种有用的 方法。如果你没有其他信息,一个网页的链入链接数可以成为该网页可 能会多有用或多有“权威性”的指标。在这个例子中,伯特的菜谱得分为 3,欧尼的菜谱得分为1,因此在搜索引擎向用户展示的结果中,伯特的 网页排名比欧尼的高。 你可能已经发现了一些在排名上使用这种“超链接把戏”的问题。一 个很明显的问题就是,有时候链接被用来显示差网页,而非好网页。比 如,假设有个链接欧尼菜谱的网页上写着:“我试了下欧尼的菜谱,很糟 糕。”像这样批评而非推荐一个网页的链接,的确会导致超链接把戏将网 页的排名拔高。不过,在现实中,超链接更多是用于推荐而非批评。因 此,尽管有这个明显的缺陷,超链接把戏仍然很有用。 36 PDF电子书基地http:/dayol982.400gb.com
PDF电子书基地 http://dayo1982.400gb.com
第三摩PageRank-一让谷欢腾飞的技术 权重把戏 你可能已经在想,为什么要对网页的所有链入链接一视同仁。来自专 家的推荐肯定就要比菜鸟的推荐更有价值?要细致地理解这一点,我们继 续研究上面的炒蛋例子,不过研究的是另一组链入链接。下页的图对链入 链接进行了重新设置:现在,伯特和欧尼的菜谱的链人链接数相等了(只 有一个),但欧尼的链入链接来自我的主页,而伯特的则来自于著名主厨 艾利斯·沃特斯。 如果没有其他信息,你更喜欢哪个菜谱?很显然,选择由一位著名主 厨推荐的菜谱,要比选择由一名计算机科学相关书籍作者推荐的菜谱更 好。我们称这一基本原则为“权重把戏”(the authority trick):来自高“权 重”网页的链接排名要比来自低“权重”网页链接的排名高。 权重把戏的原理。这里显示了四个网页:两个炒蛋莱谱网页和两个蛙向莱谱的网页。其中一 个链接来自于本书作者(不是著名主厨),而另一个链接来白著名主厨艾利斯沃特斯的主页。权 重把戏将伯特的网页排在欧尼的菜谱之前,因为伯特的链入链接“权重”比欧尼的链入链接大。 这个原则很好,但其实际形式对搜索引擎而言一点用都没有。计算机 如何才能自动判定艾利斯·沃特斯在炒蛋方面比我更具有权威性呢?有 37