室未来的九大法 在标题或一份文件的特定位置来实现同样的效果。我们假定N关键词存 在,以便更容易解释。事实上,在写作本书时,谷歌已经可以让用户通过 使用关键词intitle进行标题搜索:因此,在谷歌中查询intitle:boat,将找 到标题中带有“boat”的网页。自己试试! 让我们来看看,在上面两张图中由三个网页组成的示例里,搜索引擎 如何有效地执行查询dog IN TITLE。首先,搜索引擎提取“og”的索引 项,也就是2-3、2-7和3-11。然后(这可能有点出人意料,但请忍耐片刻) 搜索引擎会同时提取<titleStart>和<titleEnd的索引项。 <titleStart>的索引项是1-l、2-1和3-1,<titleEnd>的索引项是1-4、2-4 和3-4。这些提取信息全部显示在上图中,你可以忽略那些圈和框。 之后,搜索引擎开始扫描“d0g”的索引项,检查其命中,看是否有 哪个命中发生在标题内。“d0g”的第一个命中是圈起来的项2-3,代表其 是第2页的第3个词。通过一并扫描<titleStart>的项,搜索引擎就能知 道第2页的标题从哪开始一即索引项的第一个数字要以“2”开始,也 就是被圈的项2-1,即第2页的标题从第1个单词处开始。同样的,搜 索引擎能知道第2页的标题在哪结束。搜索引擎只要扫描索引项中的 <titleEnd>,寻找以“2-”开始的索引项数字,在这个例子中就是停止在 被圈的项24处。因此第2页的标题在第4个词处结束。 我们目前已知的所有东西都被图中圈住的项总结了。它们告诉我们第 2页的标题从第1个词开始,到第4个词结束,而“dog”这个词是第3个 词。最后一步很简单:因为3大于1,小于4,我们肯定“dog”的这次命 中确实出现在一个标题中,因此第2页应该是查询d0 g IN TITLE的命中。 现在搜索引擎可以转向寻找“d0g”的第二个命中,也就是2-7(第2 页的第7个词),但因为我们已经知道第2页是命中,因此可以忽略2-7 这个项,转向下一个命中3-11(由一个框标记)。这表示“dog”是第3页 第ll个词。于是我们开始跳过被圈住的<titleStart>和<titleEnd>项,寻 找以“3”开始的项。(有一点需要重点注意,我们不必回到每行的开始, 28 PDF电子书基地http:/dayol982.400gb.com
PDF电子书基地 http://dayo1982.400gb.com
第二章搜索引擎索引一在世界上最大的草垛中寻针 而是可以从之前扫描命中的地方重新开始。)在这个简单例子中,以“3” 开始的项恰好彼此相邻一<titleStart>是3-l,<titleEnd>是3-4。为便于 参考,这两个数字都用框围了起来。接下来,我们又面临判定“d0g”在 3-11的命中是否位于标题内的问题。框内信息告诉我们,它们都是在第三 页,“og”是第11个词,而标题从第1个词开始,到第4个词结束。因 为1大于4,所以“dog”的这次命中出现在标题之后,也就是不在标题 内。网页3并不是查询dog IN TITLE的命中。 元词把戏能让搜索引擎以极端高效的方式回应有关一个文件结构的查 询。上面的例子只是搜索页面标题内,但类似的技术能让用户搜索超链 接、图片描述和网页其他有用部分内的词。而且所有这类查询都可以像上 面的例子一样得到高效回应。正如我们之前讨论过的查询,搜索引擎无须 返回查看原始网页:搜索引擎只需查阅小部分索引项,就能回应查询。同 样重要的是,搜索引擎只需遍历每个索引项一次。还记得我们在完成处理 第2页的首个命中后,转向第3页的可能命中时发生了什么吗?搜索引擎 并没有返回索引项<titleStart>和<titleEnd>的开端,而是从之前离开的地 方继续进行扫描。这也是让N查询高效的关键因素。 标题查询和其他取决于网页结构的“结构查询”类似于之前讨论的 NEAR查询,虽然人们极少执行结构查询,但搜索引擎无时无刻不在内部 使用它们。原因之前提过:搜索引擎的生死由其排名的质量决定,而通过 利用网页结构,排名质量能够得到大幅提升。比如,标题中有“dog”的 网页包含与狗有关信息的可能性,要比在网页正文中提及“dog”的网页 大得多。因此,当一名用户输入简单的查询og,搜索引擎能在内部执行 一个dog IN TITLE查询(即便用户并未详细地要求这一点),以寻找最有 可能与狗有关的网页,而非只是恰好提到狗的网页。 29
德泰米的九大法 索引和匹配把戏并非是全部内容 搭建一个搜索引擎并不是一件容易的事情。最终成品就像一个巨大的 复杂机器,带有许多不同的轮子、发动机和杠杆。这些装置都必须安装正 确,系统才能有用。因此,单靠在本章中出现的两个把戏并不能解决创建 一个高效搜索引擎索引的问题,意识到这一点很重要。不过,词位置把戏 和元词把戏无疑展现了真正的搜索引擎构建和使用索引的“风味”。 元词把戏的确帮助过AltaVista-—其他搜索引擎则失败了一成 功地在整个互联网中寻找有效匹配。我们之所以知道这一点,是因为 Alta Vista在l999年递交的美国专利文件《索引的限制搜索》(Constrained Searching of an Index)中描述了元词把戏。不过,AltaVista超级精巧的匹 配算法并不足以让其从搜索行业波涛汹涌的早期脱颖而出。正如我们已经 知道的,有效匹配只是一个高效搜索引擎的一半,另一大挑战是对匹配网 页进行排名。正如我们将在下一章中看到的,一种新排名算法的出现足以 让AltaVista相形见绌,并让谷歌一跃进人网络搜索世界的最前沿。 30 PDF电子书基地http:/dayol982.400gb.com
PDF电子书基地 http://dayo1982.400gb.com
第三章 PageRank 一让谷歌腾飞的技术 ALGORITHMS 《星际迷航》(Star Trek)中的计算机并不特别让 人感兴趣。他们向计算机提问题,计算机还要想一会 儿。我觉得我们能做得更好 拉里·佩奇(谷歌联合创始人)
PDF电子书基地http:/dayol982.400gb.com
PDF电子书基地 http://dayo1982.400gb.com