现有的搜索引擎 中文搜索引擎 英文搜索引擎 百度中文搜索引擎 英文 Google搜索引擎 Google搜索引擎 nktomi/MSN搜索引擎 北大天网中英文搜索引擎Fas/ AllTheWeb搜索引擎 聪搜索引擎 Altavista搜索引擎 雅虎中国分类搜索引擎SK/ Temo搜索引擎 搜狐分类搜索引擎 英文 Yahoo!分类目录 新浪搜索引擎 Dmoz人工分类目录 网易分类目录引擎 Looksmart分类目录
11 现有的搜索引擎 中文搜索引擎 英文搜索引擎 百度中文搜索引擎 Google搜索引擎 北大天网中英文搜索引擎 聪搜索引擎 雅虎中国分类搜索引擎 搜狐分类搜索引擎 新浪搜索引擎 网易分类目录引擎 英文Google搜索引擎 Inktomi/MSN搜索引擎 Fast/AllTheWeb搜索引擎 AltaVista 搜索引擎 ASK/Temoa 搜索引擎 英文Yahoo! 分类目录 Dmoz 人工分类目录 LookSmart 分类目录
Google简介 斯坦福大学的博士生 Larry Page和 Sergey Brin 在1998年创立 搜索时间通常不到半秒 每天需要提供1.5亿次查询服务 Goge的技术 代理搜索技术 高级 Page Rank(网页级别)技术 Goge释义 由英文单词“ googol变化而来 表示1后边带有100个零的数字 代表 Google想征服网上无穷无尽资料的雄心 Page Rank 利用巨大的网络链接结构 网页A链接到网页B时,就认为“网页A投了网页B 避免任何人为感情因素
12 Google 简介 ▪ 斯坦福大学的博士生Larry Page 和 Sergey Brin –在 1998 年创立 –搜索时间通常不到半秒 –每天需要提供 1.5 亿次查询服务 ▪ Google 的技术 –代理搜索技术 –高级 PageRank(网页级别)技术 ▪ Google 释义 –由英文单词“googol”变化而来 –表示 1 后边带有 100 个零的数字 –代表Google想征服网上无穷无尽资料的雄心 ▪ PageRank –利用巨大的网络链接结构 –网页 A 链接到网页 B 时, 就认为“网页A 投了网页 B 一票 –避免任何人为感情因素
百度搜索引擎简介 李彦宏先生及徐勇先生 1999年底,百度成立于美国硅谷 2000年百度公司回国发展 百度的起名 辛弃疾的《青玉案》中“众里寻她千百度” 象征着百度对中文信息检索技术执著的追求 竞价排名 由用户为自己的网页出资购买关键字排名 按点击计费的一种服务 搜索结果的顺序将根据竞价的多少由高到低排列
13 百度搜索引擎简介 ▪ 李彦宏先生及徐勇先生 – 1999年底,百度成立于美国硅谷 – 2000年百度公司回国发展 ▪ 百度的起名 –辛弃疾的《青玉案》中 “众里寻她千百度” –象征着百度对中文信息检索技术执著的追求 ▪ 竞价排名 –由用户为自己的网页出资购买关键字排名 –按点击计费的一种服务 –搜索结果的顺序将根据竞价的多少由高到低排列
雅虎搜索引擎简介 大卫·费罗( David filo)和杨致远( Jerry Yang) 美国斯坦福大学电机工程系的博士生 1994年4月建立了网络指南信息库 分类目录 站点目录分为14个大类,每一个大类下面又分若干子类 连接速度快,包含范围广 雅虎中国网站提供简单易用、手工分类的简体中文网站 目录
14 雅虎搜索引擎简介 ▪ 大卫·费罗(David Filo) 和杨致远(Jerry Yang) –美国斯坦福大学电机工程系的博士生 – 1994年4月建立了网络指南信息库 ▪ 分类目录 –站点目录分为14个大类,每一个大类下面又分若干子类 –连接速度快,包含范围广 –雅虎中国网站提供简单易用、手工分类的简体中文网站 目录
性能指标 召回率( Recal 检索出的相关文档数和文档库中所有的相关文档数的比 率 衡量的是搜索引擎的查全率 精度( Pricision) 检索出的相关文档数与检索出的文档总数的比率 衡量的是搜索引擎的查准率 影响性能的因素 文档和查询的表示方法 评价文档 用户査询相关性的匹配策略 查询结果的排序方法 用户进行相关度反馈的机制
15 性能指标 ▪ 召回率(Recall) –检索出的相关文档数和文档库中所有的相关文档数的比 率 –衡量的是搜索引擎的查全率 ▪ 精度(Pricision) –检索出的相关文档数与检索出的文档总数的比率 –衡量的是搜索引擎的查准率 ▪ 影响性能的因素 –文档和查询的表示方法 –评价文档 –用户查询相关性的匹配策略 –查询结果的排序方法 –用户进行相关度反馈的机制