当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第12章 Web搜索

• Web采集 • 采集器 • 连接服务器 • 链接分析 • 锚文本 • 链接分析：Pagerank • 链接分析：HITS

文件格式：PDF，文件大小：2.15MB，售价：17.22元

文档详细内容（约71页）

信息检索与数据挖掘 2019/5/13 7 爬取过程从已知的种子URL开始 •获取页面并进行解析 •提取页面中包含的链接把链接放入到队列中 •对队列中的URL获豫页面并解析，提取链接放入队列中，如此循环爬取并解析了的 URL 尚未发现的Web 待采集URL池种子页面 Web

信息检索与数据挖掘 2019/5/13 7 爬取过程 Web 爬取并解析了的 URL 待采集URL池尚未发现的Web 种子页面 •从已知的种子URL开始 •获取页面并进行解析 •提取页面中包含的链接 •把链接放入到队列中 •对队列中的URL获取页面并解析，提取链接放入队列中，如此循环

信息检索与数据挖掘 2019/5/13 8 采集器必须具有的功能 ·礼貌性：Wb服务器有显示或隐式的策略控制采集器的访问。只爬允许爬的内容、尊重robots.txt ·鲁棒性：能从采集器陷阱中跳出，能处理Wb服务器的其他恶意行为 ·分布式：应该可以在多台机器上分布式运行。可扩展性：添加更多机器后采集率应该提高 ·性能和效率：充分利用不同的系统资源，包括处理器、存储器和网络带宽 ·优先抓取“有用的网页” ·新鲜度：对原来抓取的网页进行更新。功能可扩展性：支持多方面的功能扩展，例如处理新的数据格式、新的抓取协议等

信息检索与数据挖掘 2019/5/13 8 采集器必须具有的功能 • 礼貌性: Web服务器有显示或隐式的策略控制采集器的访问 • 只爬允许爬的内容、尊重 robots.txt • 鲁棒性: 能从采集器陷阱中跳出，能处理Web服务器的其他恶意行为 • 分布式: 应该可以在多台机器上分布式运行 • 可扩展性: 添加更多机器后采集率应该提高 • 性能和效率: 充分利用不同的系统资源，包括处理器、存储器和网络带宽 • 优先抓取“有用的网页” • 新鲜度: 对原来抓取的网页进行更新 • 功能可扩展性：支持多方面的功能扩展，例如处理新的数据格式、新的抓取协议等

信息检索与数据挖掘 2019/5/13 9 礼貌性 Robots.txt源于1994年的协议，对爬取过程进行限制 htp:lwww.robotstxt..org/orig.html关于Robots.txt的说明 ·显式的礼貌：根据网站站长的说明，选择允许爬取的部分进行爬取。按robots.txt说的做，如下面写法的意思是：任何roboti都不能访问“yoursite/temp/P”开头的网址，除了名叫 “searchengine的： □taobao.com https://www.taobao.com/robots.txt User-agent: User-agent:Baiduspider Disallow:/yoursite/temp/ Allow: /article Allow:/oshtml Disallow:/product/ User-agent:searchengine Disallow: User-Agent: Googlebot Disallow: Allow: /article Allow: /oshtml ·隐式的礼貌：即使没有特别的说明 8也应该频繁 Allow: /dianpu 的访问同一个网站 Allow: /oversea Allow: /list Disallow: User-agent:Bingbot

信息检索与数据挖掘 2019/5/13 9 礼貌性 • 显式的礼貌: 根据网站站长的说明，选择允许爬取的部分进行爬取 • 按robots.txt说的做，如下面写法的意思是：任何robot都不能访问 “/yoursite/temp/”开头的网址, 除了名叫 “searchengine”的: User-agent: * Disallow: /yoursite/temp/ User-agent: searchengine Disallow: • 隐式的礼貌: 即使没有特别的说明，也不应该频繁的访问同一个网站 Robots.txt 源于1994年的协议，对爬取过程进行限制 http://www.robotstxt.org/orig.html 关于Robots.txt的说明

信息检索与数据挖掘 2019/5/13 10 改进后的采集器采集的过程多个从URL池中取一个URL：抓取URL对应的文档分析该文档丛中提取指向其它页面的链接检查URL内容是否已经存在，不存在就加入到索引中爬取并解析了的 URL 种子页面尚未发现的Web 待采集URL池爬虫线程

信息检索与数据挖掘 2019/5/13 10 改进后的采集器爬取并解析了的 URL 尚未发现的Web 种子页面待采集URL池爬虫线程 •采集的过程 •多个 •从URL池中取一个URL：抓取URL对应的文档 •分析该文档从中提取指向其它页面的链接 •检查URL内容是否已经存在，不存在就加入到索引中

信息检索与数据挖掘 2019/5/13 11 采集器基本架构 DNS 文 URL 指纹过滤器集合 W 分析抓取内容重复 URL URL 过滤去重待采集URL池

信息检索与数据挖掘 2019/5/13 11 采集器基本架构 WWW DNS 分析内容重复？文档指纹 URL 去重 URL 集合待采集URL池 URL 过滤过滤器抓取

点击进入文档下载页（PDF格式）

共71页，可试读20页，点击继续阅读 ↓↓

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）数据挖掘经典算法概述
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）图像分类的算法思想
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第11章文本聚类
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）概率图及主题模型 Probabilistic Graphical Models Topic Model
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（支持向量机及机器学习方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（基于向量空间的文本分类）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（文本分类及朴素贝叶斯方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）矩阵分解在信息检索中的应用
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）课程要求（论文阅读&研讨）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
长沙医学院：信息工程学院课程简介
南京大学：《信息与计算科学导论》课程教学资源（课件讲稿）集合与关系 Sets-and-Relations
南京大学：《信息与计算科学导论》课程教学资源（课件讲稿）递归算法与递归方程 Recursive Algorithm and Recurrence Relations
《管理信息系统》课程教学资源（书籍教材）第2章管理信息系统的技术基础
国家中医药管理局：中医医院信息系统基本功能规范（修订，征求意见稿，2019年3月）
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）第1章绪论 Introduction to Data Science（主讲：韩爱庆）
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）第2章计算机基础
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）第3章计算机网络
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）第4章数据科学理论基础
北京中医药大学：《数据科学导论》课程教学资源（课件讲稿）大数据与卫生管理（主讲：李瑞锋）
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）大数据概述（主讲：唐燕）
北京中医药大学：《数据科学导论》课程教学资源（PPT课件）数据科学视角下的中医药

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录