当前位置：和泉文库 > 计算机 > 浏览文档

《计算机应用基础》课程教学资源（推荐书籍）改变未来的九大算法[美]约翰·麦考密克（John MacCormick）

文件格式：PDF，文件大小：25.37MB，售价：33.27元

文档详细内容（约251页）

第二章搜索引擎索引—在世界上最大的草垛中寻针一下寻找相邻单词的问题。在一些搜索引擎中，用户可以在查询中使用 “NEAR”关键词做到这一点。事实上，Alta Vista搜索引擎在早期就提供了这一功能，在本书写作时仍然提供。作为一个特殊的例子，假设在一些特别的搜索引擎中，查询cat NEAR dog会找到“dog”前后五个位置之内出现“cat”的页面。我们如何才能在数据集中有效地执行这种查询？使用词位置，会使查询变得很容易。“cat”的索引项是l-2、3-2,而“dog” 的索引项是2-2、3-6。可以立刻看出，第3页是唯一可能的命中。而在第 3页，“cat”出现在位置2，“dog”出现在位置6。因此这两个词之间的距离是6-2，结果是4。因此，“cat”的确出现在“dog”前后五个位置之内，而第3页则是查询cat NEAR dog的命中。和前面一样，请注意这次查询的执行是多么高效：无须遍历任何网页的实际内容一相反，只参考了索引中的两个项。不过，在实际中，NEAR查询对搜索引擎用户并不非常重要。几乎没人使用NEAR查询，绝大多数主要搜索引擎甚至不支持它们。尽管如此，能执行NEAR查询的能力实际上对现实中的搜索引擎至关重要。这是因为搜索引擎不断地在后台执行NEAR查询。要理解其中的原因，我们首先不得不研究现代搜索引擎面临的主要问题之一：排名的问题。排名和邻度到目前为止，我们一直专注于匹配阶段：为一个给出的查询高效地找出所有命中的问题。不过正如之前强调的，第二个阶段“排名”对于一个高质量的搜索引擎是绝对必不可少的：这是挑选出前几个命中并展示给用户的阶段。让我们更细致地来检验排名的概念。一个网页的“排名”究竟取决于什么？真正的问题不是“这个网页和查询匹配吗”，而是“这个网页和查 23

改惠未来的九大算法网页的知识。网页是由一种特殊语言编写的，以便网络浏览器能用很好的格式展示它们。（编写网页最常用的语言被称为HTML,不过HTML的细节对本次讨论不重要。)标头、标题、链接、图片等格式化结构是用被称为元词的特殊单词编写的。比如，网页标题开始使用的元词也许是 <titleStart>,而结束这个标题的元词可能是<titleEnd>。类似的，网页正文可能是以<bodyStart心开始，以<bodyEnd>结束。不要纠结于“<”、“>” 这些符号。它们出现在绝大多数计算机键盘上，人们通常只知道这些符号的数学意义是“大于”和“小于”。不过在这里，这些符号和数学没有任何关系，只是方便的象征，将这些元词和网页中的正常单词区分开来。 3 stitlestarts my pets mat sbodyend> 和上图一样的网页集，但展示的是用元河编写的情况，而非在网络渊览器中显示的样子。看一下上面的图。这张图展示的内容和前一张图一样，但显示的是实际编写网页的样子，而非在网络浏览器中显示的样子。绝大多数网络浏览器都能让用户检验网页的原始内容，这需要选择名为“查看网页源代码的菜单选项一我建议你下次有机会试验一下。（注意，在这里使用的元词，如<titleStart>和<titleEnd心是帮助你理解的虚构的、易于辨认的示例。在真实的HTML中，元词被称作标签(tag)。HTML中开启和结束标题的标签是<title>和</title>一你可以在使用“查看网页源代码”的菜单选项后搜索这些标签。) 在创建一份索引时，囊括所有元词是件很简单的事。无须新把戏：你只要像存储正常单词一样存储元词位置就行。下页的图显示了从带有元词的三个网页中创建的索引。看一下这张图，确保自己理解了其中所有的奥秘。比如，“mat”的项是1-l1、2-1l,表示“mat”是第1页的第1l个词， PDF电子书基地http:/dayol982.400gb.com

点击进入文档下载页（PDF格式）

共251页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录