搜索引擎技术介绍 王栋
搜索引擎技术介绍 王栋
Topics 概述 ■信息检索模型 ■信息检索系统的评价标准 ■Wveb搜索引擎的难点 ■Web搜索引擎体系结构 ■ Web crawler ■预处理 索引和查找 检索结果排序
Topics 概述 信息检索模型 信息检索系统的评价标准 Web搜索引擎的难点 Web搜索引擎体系结构 Web Crawler 预处理 索引和查找 检索结果排序
概述 搜索引擎属于信息检索( nformation retrieva,R)范畴 信息检索的基本任务 口如何找到并定位特定资源? 口这些资源可能来自 Web 数据库 ■文件系统 如果目标资源是Web,就称为Wveb搜索引擎 口 Google,百度, Yahoo!
概述 搜索引擎属于信息检索(Information Retrieval,IR)范畴 信息检索的基本任务 如何找到并定位特定资源? 这些资源可能来自 Web 数据库 文件系统 …. 如果目标资源是Web,就称为Web搜索引擎 Google,百度,Yahoo!
Web User F system Get Users Present Query Search Gathe Results Data Index Search Document Index Index Figure 1.5 A typical application integration with Lucene
信息检索模型(1/3) ■信息检索模型(| R model)可形式化地表示为一个四元 组 <D, Q, F,R(g, d)> 其中D是一个文档集合,Q是一个查询集合,F是一个对文 档和查询建模的框架,R(q,d)是一个排序函数,它给查 询q和文档d之间的相关度赋予一个排序值,即相天度评 价 常见的信息检索模型有: 口布尔模型( Boolean mode) 口向量空间模型( Vector Space Model) 口概率模型( Probabilistic Model) 口推理网络模型( Inference Network Mode)
信息检索模型(1/3) 信息检索模型(IR model)可形式化地表示为一个四元 组: < D, Q, F, R(q, d) > 其中 D是一个文档集合, Q是一个查询集合, F是一个对文 档和查询建模的框架,R(q, d) 是一个排序函数,它给查 询 q和文档 d之间的相关度赋予一个排序值,即相关度评 价。 常见的信息检索模型有: 布尔模型(Boolean Model ) 向量空间模型(Vector Space Model ) 概率模型(Probabilistic Model ) 推理网络模型(Inference Network Model )