当前位置：和泉文库 > 计算机 > 浏览文档

北京大学：《信息检索》课程教学资源（PPT课件讲稿）Crawling the Web

• How to collect data from Web? – Build a Crawler – High Performance Web Crawler – Distributed Crawling/Incremental Crawling – State-of-art technology

文件格式：PPT，文件大小：2.34MB，售价：14.02元

共60页，可试读20页，点击往前阅读 ↑↑

文档详细内容（约60页）

还存在什么问题呢？ ·Web规模在不断增长，容量巨大一必须具备高效率 ·1 billion pages/per month→385 pages/,sec -Crawler.系统的瓶颈在哪里？ ·加更多收集机器是否能解决问题？ ·在l/o部分，look-up(0,Store(0→特别是需要提高网络带宽利用率当数据量大到那些data structure?不能够在内存中放下时→优化Is url or pages VISITED

还存在什么问题呢？ • Web规模在不断增长，容量巨大 – 必须具备高效率 • 1 billion pages / per month→385pages/sec – Crawler系统的瓶颈在哪里？ • 加更多收集机器是否能解决问题？ • 在I/O部分，look-up(), Store() → 特别是需要提高网络带宽利用率 • 当数据量大到那些data structure不能够在内存中放下时 →优化 Is url or pages VISITED

还存在什么问题呢？ The real world is not perfect -镜像与重复网页(mirrors and duplications) -url/html语法错误 -服务器陷阱(server traps) 么y -服务器抱怨一法律问题 -系统崩溃， -停电.…

还存在什么问题呢？ • The real world is not perfect – 镜像与重复网页 (mirrors and duplications) – url/html 语法错误 – 服务器陷阱(server traps) – 服务器抱怨 – 法律问题 – 系统崩溃， – 停电…

URL不唯一性 S门a新浪网，有多少个ip地址？ sina.com.cn http://www.china-pub.com/browse/?typeid=02&ordertype=1 http://w.china-pub.com/browse/?typeid=02&ordertype=1&nonsense=1 ·不同u指向的同一个网页一P地址和域名之间的多对多关系 ·大规模网站用于负载平衡的技术：内容镜像 ·“virtual hosting"和“Proxy pass”":不同的主机名映射到同一个P地址，发布多个逻辑网站的需要(Apache支持) ·动态网页的参数 ·Session id ·上一页/下一页

URL不唯一性 • 不同url指向的同一个网页 – IP地址和域名之间的多对多关系 • 大规模网站用于负载平衡的技术：内容镜像 • “virtual hosting”和“Proxy pass”：不同的主机名映射到同一个IP地址，发布多个逻辑网站的需要（Apache支持） • 动态网页的参数 • Session id • 上一页/下一页有多少个ip地址？ http://www.china-pub.com/browse/?typeid=02&ordertype=1 http://www.china-pub.com/browse/?typeid=02&ordertype=1&nonsense=1

对URL进行规格化 ·用一个标准的字符串表示协议(http) 。利用canonical主机名字 -查DNS会返回IP和一个canonical名字 ·显式加上一个端口号(80也加上) 。1 规格化并清理好文档路径 -不例如将/books/,./papers/sigmod:1999.ps写成 /papers/sigmod1999.ps

对URL进行规格化 • 用一个标准的字符串表示协议(http) • 利用canonical主机名字 – 查DNS会返回IP和一个canonical名字 • 显式加上一个端口号（80也加上） • 规格化并清理好文档路径 – 例如将/books/../papers/sigmod1999.ps写成 /papers/sigmod1999.ps

Robot exclusion ·检查 -在服务器文档根目录中的文件，robots.txt,包含一个路径前缀表，crawlers不应该跟进去抓文档，例如 #AltaVista Search User-agent:AltaVista Intranet V2.0 W3C Webreq Disallow:/Out-Of-Date #exclude some access-controlled areas User-agent: Disallow:/Team Disallow:/Proje ct Disallow:/Systems ·限制只是对crawlers,一般浏览无妨 -“君子协定”（你的crawler可以不遵守）

Robot exclusion • 检查 – 在服务器文档根目录中的文件，robots.txt, 包含一个路径前缀表，crawlers不应该跟进去抓文档，例如 #AltaVista Search User-agent: AltaVista Intranet V2.0 W3C Webreq Disallow: /Out-Of-Date #exclude some access-controlled areas User-agent: * Disallow: /Team Disallow: /Project Disallow: /Systems • 限制只是对crawlers，一般浏览无妨 – “君子协定”（你的crawler可以不遵守）

点击进入文档下载页（PPT格式）

共60页，可试读20页，点击继续阅读 ↓↓

您可能感兴趣的文档

北京大学：《信息检索》课程教学资源（PPT课件讲稿）Web Search
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Course Overview（主讲：闫宏飞）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 01 Introdution（主讲：吉建民）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 15 智能机器人系统介绍
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 14 Reinforcement Learning
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 13 神经网络与深度学习
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 09 AI Planning
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 08 First-Order Logic and Inference in FOL
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 11 马尔可夫决策过程
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 10 Uncertainty and Bayesian Networks
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 07 Logical Agents
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 06 Game Playing
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Retrieval Models
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Essential Background
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）文本分类 Text Categorization（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息过滤（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索模型 IRModel
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索概述
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine
《统计自然语言处理》课程教学资源（PPT课件讲稿）第7章汉语自动分词与词性标注
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）01 Introduction（主讲：彭波）The CCF Advanced Disciplines Lectures
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）02 Link Analysis
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）03 Web Spam
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）04 Recommendation System

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录