上岸文通大学 SHANGHAI JIAO TONG UNIVERSITY 第16章 网络搜索引擎 K 1日gG
第16章 网络搜索引擎
© 上岸文通大学 SHANGHAI JIAO TONG UNIVERSITY 搜索引擎概述 1日gG
搜索引擎概述
C网络环境下的文科信息检索一Windows Internet Explorer ▣☒ ③。业-包ttp/1nt.a1 ibrary.con//1/boo/11b/1252985/91 ebfla6953e4ab5829478bde1ne52/6921b56232b7?e8b7b4分X9搜 P 文件E)编舒(但)查看()收藏夹(a)工具()杯助() 奇女规夹 色网络环境下的文科信息检索 正文234页¥ 202/234◆ +于 ©痛小 文字摘录 色打印 创铝↓下较 网读模式:目目昌 书内搜索 回国可 目录 》 》 学通:计p明 第16章l 网络搜索引擎 理器 16.1 搜索弓引多概述 16.1.1搜索引擎的工作原理 16.1.1.1搜索引擎的概念 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的 信息,在对信息进行组织和处理后,将处理后的信息显示给用户,为用户提供基于Wb平台的 检索服务的系统。 对于用户而言,搜索引擎提供一个包含搜索框的页面,用户在搜索框内输入词语,通过浏 览器提交给搜索引肇后,搜索引擎就会返回与用户所输入的内容相关的信息列表。 16.1.1.2搜索引擎的工作原理 搜索引擎的工作原理大致如下: 网环境下的文科信息检索 2019/5131 6
网络环境下的文科信息检索 2019/5/31 6
C网络环境下的文科信息检索一Windows Internet Explorer ▣☒ ③。全业-包ttp:/1nt.aa1 ibrary.con/n/a11s/boo业/11b/1252985B/91 ebfla6953e4ab58290478bde1nef52/6921b56232b7?e8b7b4金分X9搜挑 P 文件(E)编绿(但)查看()收藏夹(a)工具(D帮助() 奇女规夹 色刚络环境下的文科信息检索 正文234顶~202234◆ ⊙t放于 痛小文字摘录 打印石纠↓下载闵读模式:目目昌风 书内搜索 16.1.1.2搜索引擎的工作原理 搜索引擎的工作原理大致如下: 录 (1)抓取网页:每个独立的搜索号引繁都有自己的被称为“蜘蛛”之类(spider)的网页抓取程 >》 序。网页抓取程序顺着网页中的超链接,连续地抓取网页。被抓取的网页被称为“网页快照”。 由于互联网中超链接的应用很普遍,从理论上讲,从一定范围的网页出发,能搜集到绝大多数 的网页。 (2)处理网页:搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其 中,最重要的就是提取关键词,建立索引文件。此外,还包括去除重复网页、分析超链接、计算 网页的重要度。 (3)提供检索:用户输入关键词进行检索,搜索引整从索引数据库中找出与该关键词匹配 的网页。为了用户便于判断,除了网页标题和URL外,搜索引擎还会提供一段来自网页的摘 要以及其他信息。 16.1.2搜索引擎的类型 按照信息搜索方法和服务方式的不同,搜索引擎大致可分为:全文搜索引擎、目录式搜索 引擎、元搜索引擎等类型。 16.1.2.1-全文搜索引擎 全文搜索引擎:又称“关键词搜索引肇”、“机器人搜索引擎”、“自动搜录式搜索引擎”,是名 副其实的搜索引擎。这类搜索引擎利用网络Rob©t自动搜索技术对各种网络资源进行抽取、 标引、归并、排序,并创建可按关键词查询的Wb网页索引数据库。当用户输人检索词后,搜 索引擎会自动将其与存贮在网上的信息特征进行比较匹配,提供包含该关键词信息的所有网 址,以及通向该网站的链接。Googlet(谷歌)、“百度”即属此类。 优点:收录的信息量巨大,索引撕捏左细道士托典七次面然小位白一如 网络环境下的文科信息检索 2019/5131 7
网络环境下的文科信息检索 2019/5/31 7
C网络环境下的文科信息检索一Windows Internet Explorer ▣☒ ③。全业-包ttp:/1nt.aa1 ibrary.con/n/a11s/boo业/11b/1252985B/91 ebfla6953e4ab58290478bde1nef52/6921b56232b7?e8b7b4金分X9搜挑 P 文件E)编舒(但)查看()收藏夹(a)工具()标助() 奇女规夹 色网络环境下的文科信息检索 正文234页202■/234◆ ⊙+放于 缩小文字摘录 打印石创铝↓下载阅读模式:目目昌 书内搜索 安人及其巴同怎。 16.1.2搜索引擎的类型 录 >》 按照信息搜索方法和服务方式的不同,搜索引擎大致可分为:全文搜索引擎、目录式搜索 引擎、元搜索引擎等类型 16.1.2.1全文搜索引擎 全文搜索引整:又称“关键词搜索引擎”、“机器人搜索引擎”、“自动搜录式搜索引擎”,是名 副其实的搜索引繁。这类搜索引整利用网络R。bot自动搜索技术对各种网络资源进行抽取、 标引、归并、排序,并创建可按关键词查询的Wb网页索引数据库。当用户输人检索词后,搜 索引擎会自动将其与存贮在网上的信息特征进行比铰匹配,提供包含该关键词信息的所有网 址,以及通向该网站的链接。Google(谷歌)、“百度”即属此类。 优点:收录的信息量巨大,索引数据库规模大,耗费人力资源较小,信息更新速度快,适合 第16章网络搜索写引擎 203 生生给麦h占后同点白t2应水低.+同一上虚司哈法不同△由边己意数后4排 网络环境下的文科信息检索 2019/5131 8
网络环境下的文科信息检索 2019/5/31 8