搜索引擎原理 ■搜索引擎的原理,可以看做三步:从互 联网上抓取网页→建立索引数据库→在 索引数据库中搜索排序 ■搜索引擎并不真正搜索互联网,它搜索 的实际上是预先整理好的网页索引数据 库 ■搜索引擎,也不能真正理解网页上的内 容,它只能机械的匹配网页上的文字
搜索引擎工作原理 搜索引擎并不真正搜索互联网,它搜索的实际 上是预先整理好的网页索引数据库。 搜索引擎至少由三部分组成: 令爬行器(即机器人、蜘蛛等搜索程序) 令索引生成器(即网页索引数据库) 查询检索器(即用户检索界面) φ随着搜索引擎的发展,许多搜索引擎在此基础上 增加特色功能。如百度增加了监控程序
搜索引擎工作原理 ❖ 搜索引擎并不真正搜索互联网,它搜索的实际 上是预先整理好的网页索引数据库。 ❖ 搜索引擎至少由三部分组成: ❖ 爬行器(即机器人、蜘蛛等搜索程序) ❖ 索引生成器(即网页索引数据库) ❖ 查询检索器(即用户检索界面) ❖ 随着搜索引擎的发展,许多搜索引擎在此基础上 增加特色功能。如百度增加了监控程序
搜索引擎的工作原理就象超市 因特网一 爬行器 索引生成器 (蜘蛛) (网页数据库)
搜索引擎的工作原理就象超市 索引生成器 (网页数据库) 爬行器 (蜘蛛) 查询检索器 (用户查询) 因 特 网
步:从互联网上抓取网页 令利用能够从互联网上自 动收集网页的 Spider系 因特网一 统程序,自动访问互联 网,并沿着任何网页中 的所有URL爬到其它网 页,重复这过程,并把 爬过的所有网页收集回 来
第一步:从互联网上抓取网页 ❖ 利用能够从互联网上自 动收集网页的Spider系 统程序,自动访问互联 网,并沿着任何网页中 的所有URL爬到其它网 页,重复这过程,并把 爬过的所有网页收集回 来。 因 特 网
第二步:建立索引数据库 由分析索引系统程序对收集回来的 网页进行分析,提取相关网页信息(包 括网页所在URL、编码类型、页面内容 包含的关键词、关键词位置、生成时间 大小、与其它网页的链接关系等),根 据一定的相关度算法进行大量复杂计算,叫[ 得到每一个网页针对页面内容中及超链 中每一个关键词的相关度(或重要性), 然后用这些相关信息建立网页索引数 据库
第二步:建立索引数据库 ❖ 由分析索引系统程序对收集回来的 网页进行分析,提取相关网页信息(包 括网页所在URL、编码类型、页面内容 包含的关键词、关键词位置、生成时间、 大小、与其它网页的链接关系等),根 据一定的相关度算法进行大量复杂计算, 得到每一个网页针对页面内容中及超链 中每一个关键词的相关度(或重要性), 然后用这些相关信息建立网页索引数 据库