当前位置：和泉文库 > 计算机 > 浏览文档

《计算机应用基础》课程教学资源（推荐书籍）改变未来的九大算法[美]约翰·麦考密克（John MacCormick）

文件格式：PDF，文件大小：25.37MB，售价：33.27元

文档详细内容（约251页）

第二章授索引琴索引一在世界上最大的草噪中寻针会让整个过程更具体的例子。想象万维网只由上面显示的3个短网页组成，它们分别分配到了页码1、2和3。计算机可以为这三个网页创建一个索引：首先要为出现在任一页面上的所有单词创建一个列表，然后按字母表顺序整理这张列表。我们可以将结果称为单词表(word list)一在这个例子中是“a、cat、dog、mat、 on、sat、stood、.the、while”。然后计算机会一个单词一个单词地搜遍所有页面。计算机会标注每个单词所在的页码，然后再标注单词表中下一个单词的位置。最终结果显示在上图中。比如，你可以立即看到单词“cat” 出现在第1页和第3页，却不在第2页。而单词“while”只出现在第3页。通过这种简单方法，搜索引擎就已经能回答许多简单的查询。比如，假设你输入查询词“cat”,搜索引擎能很快跳转到单词表中的“cat”项。 (因为字母表是按字母排序的，计算机能很快找到任何项，就像我们可以很快找到词典中的一个单词-一样。)一旦计算机找到“cat”项，搜索引擎就能给出该项的页面列表一在这个例子中就是第1页和第3页。现代搜索引擎对结果的组织很合理，只摘取了返回页面的少诈片段，不过，我们基本上会忽略这样的细节，将精力集中在搜索引擎如何知道页面“符合” 用户输入的查询上。再举另一个非常简单的例子，让我们来检查一下查询“og”的步骤。在这个例子中，搜索引擎很快会找到“d0g”项，并返回页码2和3。如果查询多个单词，如“cat dog”呢？这表示你正在寻找同时包含单词 “cat”和“dog”的页面。通过已有的索引，搜索引擎也能很容易查到结果。搜索引擎首先会单独查找这两个单词，找出它们分别在哪些页面中。结果是“cat”在第1页和第3页，“dog”在第2页和第3页。之后，计算机能快速扫描这两个命中列表，寻找同时出现在两个列表中的页码。在这个例子中，第1页和第2页被排除了，但第3页同时出现在两个列表中，因此最终答案就是第3页上的一次单独命中。与之极其相似的一个策略也适用于超过两个单词的查询。比如，查询“cat the sat'”会返回第1页和第 19

塞未来的九大法 3页为命中，因为它们是“cat”(1,3)、“the”(1,2,3)和“sat”(1,3) 这个列表的通用元素。就目前来看，搭建一个搜索引擎听起来相当容易。最简单的索引技术似乎运行得很好，即便对多词查询也是如此。不幸的是，这种简单方法完全不能满足现代搜索引擎的需要。出现这种情况的原因有几个，不过现在我们只会关注其中之一：如何做短语查询。短语查询是指寻找一个确切短语的查询，而非凑巧一些单词出现在页面中的某些地方。比如，“cat sat' 查询和cat sat查询的意义截然不同O。cat sat查询寻找的是在任何位置包含“cat”和“sat”两个单词的页面，不考虑顺序；而“cat sat'”查询寻找的是包含单词“cat”之后紧跟单词“sat”的页面。在上面那个由三个网页组成的简单例子中，cat sat查询结果命中第1页和第3页，但“cat sat'” 查询只返回一次命中，就在第1页。一个搜索引擎如何才能有效地进行一次短语查询呢？继续说“cat sat'” 这个例子。第一步和平常的多词查询cat sat-一样，从单词表中获取每个单词出现的网页列表，在这个例子中就是出现在第1页和第3页的“cat”: “sat”也一样，出现在第1页和第3页。不过搜索引擎到这里就卡住了。搜索引擎很确切地知道两个单词同时出现在页面1和页面3上，但没有办法来分辨这些单词是否以正确的顺序紧挨着彼此出现。你也许会想，搜索引擎可以返回查看原网页，看这个短语是否存在。这的确是个可能的解决方案，但效率却非常非常低。这需要遍历每一个可能包含这个短语的网页的全部内容，而且可能有海量这样的网页。记住，我们在这里打交道的是一个只由三个页面组成的极小的例子，真正的搜索引擎必须从数百亿个网页中找出正确的结果。 ①注意英文单词的双引号。一译者注 PDF电子书基地http:/dayol982.400gb.com

第二查搜索引繁素引一在世界上最大的草垛中寻针词位置把戏这一问题的解决方案是让现代搜索引擎运行良好的首个、真正精巧的思想：索引应该不单单存储页码，还要存储页面内的位置。这些位置并不神秘：它们只是代表了一个词在页面中的位置。第3个词的位置是3，第 29个词的位置是29，依此类推。例子中三个页面组成的数据集如下页图所示，还加上了词位置。图下面的是索引一由存储页码和词位置中得出的结果组成。我们称这种创建索引的方法为“词位置把戏”(word location tick)。举几个例子，以确保大家理解了词位置把戏。索引的第一行是 “3-5.”。这意味着词“a”只在数据集中出现过一次，是第3页的第5个单词。索引中最长的一行是“the1-11-52-12-53-1”。这一行可以让你知道，这个数据集中所有出现单词“the”的具体位置。它在第1页出现过两次（位置1和5），第2页出现过两次（位置1和5），第3页出现过1 次（位置1）。你还记得介绍页内词位置的目的吗？是为了解决如何有效地进行短语查询这个问题。让我们来看看如何用这个新索引做一次短语查询。还是和前面一样，查询短语“cat sat'”。第一步和使用旧索引时一样：从索引中提取单个词的位置，“cat”的位置是1-2、3-2，“sat”的位置是1-3、3-7。到这里还好：我们知道短语查询“cat sat'”唯一可能的命中就是在第1页和第3页。但与之前一样，我们还不确定相同的短语是否出现在了这些页面中一有可能这两个单词的确出现了，但并不是以正确的顺序彼此相邻。幸运的是，从位置信息中确认这一点很容易。首先从第1页开始。根据索引信息，我们知道“cat”出现在第1页的位置2（这就是1-2的含义）。我们还知道“sat”出现在第1页的位置3（这是1-3的含义）。但如果“cat” 在位置2，“sat”在位置3，我们就知道“sat”紧挨着出现在“cat”之后 (因为2之后立即就是3)一因此我们寻找的整个短语“cat sat'”必定出现在第1页，并从位置2开始。 21

点击进入文档下载页（PDF格式）

共251页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录