信息检索与数据挖掘 2019/5/13 12 采集器分布化 ·在分布式系统环境下不同节点的不同进程中运 行多个采集线程 ·地理位置分布的采集系统 ·把要采集的主机分配到每个节点 ·通过Hash函数或其他针对性的策略 ·不同节点之间怎么通讯?
信息检索与数据挖掘 2019/5/13 12 采集器分布化 • 在分布式系统环境下不同节点的不同进程中运 行多个采集线程 • 地理位置分布的采集系统 • 把要采集的主机分配到每个节点 • 通过Hash函数或其他针对性的策略 • 不同节点之间怎么通讯?
信息检索与数据挖掘 2019/5/13 13 节点间通信 ·通过过滤检测的URL需要发送到每个节点上进行查 重处理 DNS 到其他 文档 节点 URL 指纹 过滤器 集合 WWW 分析 主机 抓取 内容 重复 URL 划分器 URL 过滤 去重 来自 其他节点 待采集URL池
信息检索与数据挖掘 2019/5/13 13 节点间通信 • 通过过滤检测的URL需要发送到每个节点上进行查 重处理 WWW 抓取 DNS 分析 内容 重复 ? URL 过滤 URL 去重 文档 指纹 URL 集合 待采集URL池 过滤器 主机 划分器 到其他 节点 来自 其他节点
信息检索与数据挖掘 2019/5/13 14 小结:采集器 ·礼貌性:Wb服务器有显示或隐式的策略控制采集器的访问 。只爬允许爬的内容、尊重robots..txt User-agent: Disallow:/yoursite/temp/ User-agent:searchengine Disallow: ·鲁棒性:能从采集器陷阱中跳出,能处理Wb服务器的其他 恶意行为 ·分布式:应该可以在多台机器上分布式运行
信息检索与数据挖掘 2019/5/13 14 小结:采集器 • 礼貌性: Web服务器有显示或隐式的策略控制采集器的访问 • 只爬允许爬的内容、尊重 robots.txt • 鲁棒性: 能从采集器陷阱中跳出,能处理Web服务器的其他 恶意行为 • 分布式: 应该可以在多台机器上分布式运行 • …… User-agent: * Disallow: /yoursite/temp/ User-agent: searchengine Disallow:
信息检索与数据挖掘 2019/5/13 15 本讲内容:Web搜索 ·Web采集 ·采集器 Web搜索引擎需要一个连接服 ·连接服务器 务器(connectivity server)来 ·链接分析 支持Web图连接查询( 。锚文本 connectivity query)的快速处理 。 典型的连接查询包括“给定 。链接分析:Pagerank 的URL被哪些URL所指向?” 。链接分析:HITS 及“给定URL指向了哪些 URL?”等。为此,我们在内 存中存储了从URL到出链及 URL到入链的映射表
信息检索与数据挖掘 2019/5/13 15 本讲内容:Web搜索 • Web采集 • 采集器 • 连接服务器 • 链接分析 • 锚文本 • 链接分析:Pagerank • 链接分析:HITS Web 搜索引擎需要一个连接服 务器(connectivity server)来 支持Web 图连接查询( connectivity query)的快速处理 。典型的连接查询包括“ 给定 的URL 被哪些URL 所指向?” 及“ 给定URL 指向了哪些 URL?” 等。为此,我们在内 存中存储了从URL 到出链及 URL 到入链的映射表
信息检索与数据挖掘 2019/5/13 16 Web→Web图 。我们可以将整个静态Wb看成是静态HTML网页通 过超链接互相连接而成的有向图,其中每个网页是 图的顶点,而每个超链接则代表一个有向边。 B 锚 A ·包含两个顶点A、B的Wb图,每个顶点代表一个 网页,A网页上有一个超链接指向B。我们将所有 这样的顶点和有向边集合称为web图
信息检索与数据挖掘 2019/5/13 16 WebWeb图 • 我们可以将整个静态Web 看成是静态HTML 网页通 过超链接互相连接而成的有向图,其中每个网页是 图的顶点,而每个超链接则代表一个有向边。 • 包含两个顶点A、B 的Web 图,每个顶点代表一个 网页,A网页上有一个超链接指向B。我们将所有 这样的顶点和有向边集合称为Web 图