HTML的局限性 ■搜索引擎简介 分类 目录式搜索引擎:早期的 Yahoo ■全文搜索引擎: Google及百度等第二代商用搜索引擎 元搜索引擎: Web Crawler 文件)牺①)查看C)收震工具⑦)帮助cD ⊙回☆收来创,国,回题图B不 M囝转 WebCrawler ageswhite Featured searche Otner Resources a gs tormes o Add webcrawler to Your Site o when to plant a how to videos e WebCrawler Toolbar
HTML的局限性 搜索引擎简介 分类 目录式搜索引擎:早期的Yahoo 全文搜索引擎:Google及百度等第二代商用搜索引擎 元搜索引擎:WebCrawler
HTML的局限性 ■搜索引擎简介 搜索引擎的体系结构 下载系统:网络蜘蛛( Spider),广度,深度优先 分析系统:分词, PageRank 索引系统:正排索引;倒排索引 查询系统:检索模型 下载系统 分析系统 网页库 索引系统 提交查询 查询系统 索引库 返回查询结果 Client
HTML的局限性 搜索引擎简介 搜索引擎的体系结构 下载系统:网络蜘蛛(p ) S ider),广度,深度优先 分析系统:分词,PageRank 索引系统:正排索引;倒排索引 查询系统:检索模型
HTML的局限性 搜索引擎简介 分词 基于字符串匹配 基于理解 基于统计 PageRank PR(A)=(1-d)+d(Pr(t1)C(t1)+.+ PR (Tn)/C(Tn)) aPR(A):网页A的 PageRank值; nT1,T2,…,Tn:网页A的链入网页; aPR(Ti):网页Ti的 PageRank值(i1,2,…n); ac(Ti):网页Ti的链出网页的数量(i=1,2,…n) d:一个衰减因子,0<d<1,通常取值为0.85
HTML的局限性 搜索引擎简介 分词 基于字符串匹配 基于理解 基于统计 PageRank PR (A ) = (1- d) + d (PR (T1)/C (T1) + ڮڮ +PR (Tn)/C (Tn) ) PR (A ) :网页A 的PageRank 值; T1, , T2 ڮ ,Tn :网页A 的链入网页; PR (T i) :网页T i 的PageRank 值( i= 1, 2, ڮn) ; C (T i) :网页T i 的链出网页的数量( i= 1, 2, ڮn) ; d :一个衰减因子, 0< d< 1, 通常取值为0. 85
HTML的局限性 ■搜索引擎简介哪 索引系统 hithithit hit-. its hit hithit- ts hithithit hit 正排索引 cel0[ dIDn hite hit下tht“ ordID n hits: hit hithit hit Plain Hite: Positi∞n12 Fancy Hits: Type: 4Position:B Anchor)Hits: Cap :4[脚:4Pit∞4 倒排索引 倒排福索引 wordID n docID docID n hits hithit hits sordID n doc ID docID n hit hit hit hit hit sordID n doc l0 dociD n hits hit hit… deeD n hits hithithit hit
HTML的局限性 搜索引擎简介 索引系统 正排索引 倒排索引
HTML的局限性 ■搜索引擎简介 用户输入 查询系统 倒排表检索 交档列表求交 向量化 ■搜索引擎的评价标准 向量相似度 查全率(Reca) 排序输出 查准率( Precision) recall-number of retrieved relevant documents total number of relevant documents number of retrieved relevant documents precision= total number of retrieved documents
HTML的局限性 搜索引擎简介 查询系统 搜索引擎的评价标准 查全率(Recall) 查准率(Precision)