知识速递 爬行与抓取 爬行与抓取是搜索引擎第一步工作,也就是在互联网上发现、搜集网页信息,同时对信息进行提取和建立索引库 搜索引擎蜘蛛 搜索引擎用来爬行和访问页面的程序被称为“蜘蛛”或网络机器人,按 照一定规则自动抓取互联网信息,并在搜索引擎的服务器上建立索引库 跟踪链接 为了抓取更多的页面,搜索引擎蜘蛛会跟踪页面上的链接 搜索引擎蜘蛛的爬行策略:深度优先搜索,广度优先搜索 吸引蜘蛛 因为多种因素影响,蜘蛛无法抓取所有的网页
知识速递 搜索引擎用来爬行和访问页面的程序被称为“蜘蛛”或网络机器人,按 照一定规则自动抓取互联网信息,并在搜索引擎的服务器上建立索引库 搜索引擎蜘蛛 为了抓取更多的页面,搜索引擎蜘蛛会跟踪页面上的链接 搜索引擎蜘蛛的爬行策略:深度优先搜索,广度优先搜索 跟踪链接 因为多种因素影响,蜘蛛无法抓取所有的网页 吸引蜘蛛 爬行与抓取 爬行与抓取是搜索引擎第一步工作,也就是在互联网上发现、搜集网页信息,同时对信息进行提取和建立索引库
知识速递 网站和页面权重 网站的原创内容 通常质量高、时间久的网 原创内容对蜘蛛的吸引力 站,权重都比较高 非常大,也是搜索引擎蜘 蛛每天都需要的 吸引蜘蛛爬 行的因素 页面的更新频率 页面内容经常更新,蜘蛛 网站地图 会更加频繁地访问、跟踪、 清晰明了的网站地图,会指 抓取页面 引蜘蛛抓取路线
知识速递 网站和页面权重 通常质量高、时间久的网 站,权重都比较高 页面的更新频率 页面内容经常更新,蜘蛛 会更加频繁地访问、跟踪、 抓取页面 网站的原创内容 原创内容对蜘蛛的吸引力 非常大,也是搜索引擎蜘 蛛每天都需要的 网站地图 清晰明了的网站地图,会指 引蜘蛛抓取路线 吸引蜘蛛爬 行的因素
知识速递 爬行与抓取 地址库 为了避免蜘蛛重复爬行和抓取网址,搜索引擎会建立一个地址库, 记录下己经被发现但还没有被抓取的页面,以及己经被抓取的页面 文件储存 文件储存指搜索引擎蜘蛛抓取的数据被存入原始页面数据库。其中的页面数 据与用户浏览器得到的TML是完全相同的。每个URL都有一个独特的文件编号 爬行时检测内容 蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测,权重低的网站 上大量转载或抄袭内容时,就不再继续爬行
知识速递 为了避免蜘蛛重复爬行和抓取网址,搜索引擎会建立一个地址库, 记录下己经被发现但还没有被抓取的页面,以及己经被抓取的页面 地址库 文件储存指搜索引擎蜘蛛抓取的数据被存入原始页面数据库。其中的页面数 据与用户浏览器得到的HTML是完全相同的。每个URL都有一个独特的文件编号 文件储存 蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测,权重低的网站 上大量转载或抄袭内容时,就不再继续爬行 爬行时检测内容 爬行与抓取
知识速递 预处理 消除噪声 中文分词 识别并消除版权声明文字、 分辨句子里的字和词语 导航条、广告等对页面主题 没有贡献的内容 提取文字 去停止词 去重 从HTML文件中去除标签和程 去掉对内容没有任何影响的助 识别和删除出现在不同网站 序,提取出用于排名处理的 词、感叹词、介词等停止词, 及同一个网站的不同网址上 网页面文字内容 使索引数据主题更为突出 的重复内容
知识速递 预处理 提取文字 从HTML文件中去除标签和程 序,提取出用于排名处理的 网页面文字内容 中文分词 分辨句子里的字和词语 去停止词 去掉对内容没有任何影响的助 词、感叹词、介词等停止词, 使索引数据主题更为突出 消除噪声 识别并消除版权声明文字、 导航条、广告等对页面主题 没有贡献的内容 去重 识别和删除出现在不同网站 及同一个网站的不同网址上 的重复内容
知识速递 排名 01 对提交的搜索 02 文件匹配 03 初始子集筛选 请求进行分析 分析搜索请求包括中 找到含有所有搜索 搜索引擎面对海量的 文分词、去停止词、 关键词的所有文件 数据会从中选择权重 指令处理、拼写矫正 高的页面去匹配,并 、整合搜索触发等 返回给用户 04 相关性计算 05 排名过滤及调整 06 排名显示 影响相关性的因素主 过滤算法会对排名进 调用原始页面的标题 要有关键词常用度、 行轻微调整,最主要 标签、说明标签、快 链接的使用和页面权 的是对某些有作弊嫌 照日期等数据显示在 重、关键词位置、密 疑的页面施加惩罚 页面上 度和字频、距离等
知识速递 排 名 01 对提交的搜索 请求进行分析 分析搜索请求包括中 文分词、去停止词、 指令处理、拼写矫正 、整合搜索触发等 02 文件匹配 找到含有所有搜索 关键词的所有文件 03 初始子集筛选 搜索引擎面对海量的 数据会从中选择权重 高的页面去匹配,并 返回给用户 04 相关性计算 影响相关性的因素主 要有关键词常用度、 链接的使用和页面权 重、关键词位置、密 度和字频、距离等 05 排名过滤及调整 过滤算法会对排名进 行轻微调整,最主要 的是对某些有作弊嫌 疑的页面施加惩罚 06 排名显示 调用原始页面的标题 标签、说明标签、快 照日期等数据显示在 页面上