当前位置：和泉文库 > 计算机 > 浏览文档

兰州大学：搜索引擎的使用（PPT讲稿，主讲杨青）

文件格式：PPT，文件大小：4.3MB，售价：14.22元

文档详细内容（约115页）

搜索引擎原理 ■搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序 ■搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库 ■搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字

搜索引擎工作原理搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成: 令爬行器(即机器人、蜘蛛等搜索程序) 令索引生成器(即网页索引数据库) 查询检索器(即用户检索界面) φ随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序

搜索引擎工作原理 ❖ 搜索引擎并不真正搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。 ❖ 搜索引擎至少由三部分组成： ❖ 爬行器（即机器人、蜘蛛等搜索程序） ❖ 索引生成器（即网页索引数据库） ❖ 查询检索器（即用户检索界面） ❖ 随着搜索引擎的发展，许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序

搜索引擎的工作原理就象超市因特网一爬行器索引生成器 (蜘蛛) (网页数据库)

搜索引擎的工作原理就象超市索引生成器（网页数据库）爬行器（蜘蛛）查询检索器（用户查询）因特网

步:从互联网上抓取网页令利用能够从互联网上自动收集网页的 Spider系因特网一统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来

第一步：从互联网上抓取网页 ❖ 利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。因特网

第二步:建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,叫[ 得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性), 然后用这些相关信息建立网页索引数据库

第二步：建立索引数据库 ❖ 由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库

点击进入文档下载页（PPT格式）

共115页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

Folksonomies and Social Tagging（PPT讲稿）
Enabling SOA Using Messaging（PPT讲稿）
《大学计算机基础》课程教学资源（PPT课件讲稿）第三章字处理软件Word 2003
烟台理工学院：《算法与数据结构》课程教学资源（PPT课件）第1章绪论（主讲：高慧）
文字处理软件 Word 2010（PPT讲稿）
山东大学：《数据结构》课程教学资源（PPT课件讲稿）第7章跳表和散列（Skip List and Hashing）
《Android 程序设计基础》课程教学资源（PPT课件讲稿）第5章 Android用户界面（界面设计、控件操作）
山东大学计算机科学与技术学院：Web Service（PPT讲稿）
《编译原理》课程教学资源（PPT课件讲稿）第七章语义分析和中间代码生成
《计算机组成原理》课程教学资源（PPT课件讲稿）第八章 I/O操作的实现
《C++语言程序设计》课程教学课件（PPT讲稿）第13讲多态
山东大学：《人机交互技术》课程教学资源（PPT课件讲稿）第9章可用性分析与评估
中国科学技术大学：《数据结构及其算法》课程电子教案（PPT课件讲稿）第7章图（主讲：刘东）
《计算机算法设计与分析》课程教学资源（PPT课件讲稿）分支界限法
电子工业出版社：《计算机网络》课程教学资源（PPT课件讲稿）第1章概述
《软件测试 Software Testing》教学资源（PPT讲稿）Part 3 Applying Your Testing Skills
《编译原理与技术》课程教学资源（PPT课件讲义）中间代码生成
南京大学：《编译原理》课程教学资源（PPT课件讲稿）第六章中间代码生成
合肥工业大学：《网络安全概论》课程教学资源（PPT课件讲稿）第一讲网络安全概述
中国科学技术大学：《计算机体系结构》课程教学资源（PPT课件讲稿）第五章存储层次
南京大学：移动Agent系统支撑（PPT讲稿）Mobile Agent Communication——Software Agent
西安电子科技大学：《现代密码学》课程教学资源（PPT课件讲稿）第七章数字签名和密码协议
《编译原理》课程教学资源（PPT课件讲稿）第九章独立于机器的优化
湖南科技大学：分布式工作流系统的时间管理模型研究（PPT讲稿，周春姐）

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录