网络爬虫的基本原理(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动抓取网络网络爬虫信息的程序或者脚本。网页响应的原理请求和响应两类行为,网络爬虫的基本原理浏览器向服务器发起请求、服务器接收到请求并进行解析、服务器返回对应的响应、浏览器对返回的响应进行解析和展示。在上述基础上模拟浏览器向服务器发起请求,并获取相关的响应内容,可以理解为采用自动化、程序化和批量化的方式从网页上获取需要的信息
网络爬虫 网络爬虫的基本原理 • (又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动抓取网络 信息的程序或者脚本。 网页响应的原理 请求和响应两类行为。 浏览器向服务器发起请求、服务器接收到请求并进行解析、 服务器返回对应的响应、浏览器对返回的响应进行解析和展示。 网络爬虫的基本原理 在上述基础上模拟浏览器向服务器 发起请求,并获取相关的响应内容,可 以理解为采用自动化、程序化和批量化 的方式从网页上获取需要的信息
网络爬虫的基本步骤CurlRequests库网络爬虫的基本步骤信息获取Selenium库V信息获取V信息解析网API络爬虫BeautifulSoup库值得注意的是,在爬虫实战中XPath信息解析信息获取要比信息解析更为重要,大多数时候信息解析的失正表达式败是由于网站反爬虫的存在导致信息获取困难
网络爬虫的基本步骤 ◼ 值得注意的是,在爬虫实战中, 信息获取要比信息解析更为重 要,大多数时候信息解析的失 败是由于网站反爬虫的存在导 致信息获取困难。 ⚫ 网络爬虫的基本步骤 ✓ 信息获取 ✓ 信息解析
网络爬虫的分类与应用场景网络爬虫分类网络爬虫应用场景根据网络爬虫的规模大小分为信息检索领域:搜索引擎的检索功能福金融领域:批量获取企业新闻、公司年报全网站爬虫:爬取工作量较大,往往采用scrapy爬虫框架来爬取。等,优化投融资决策部分网站爬虫:可提炼网页变化规则,根据此电商领域:获取店铺产品、比价和流量等,规则构造网址进行爬虫分析产品市场竞争力学术研究领域:从数据库中无法获取的大根据网页的编写方式分为数据(上市公司舆情数据)信息聚合领域:从各类公开数据中提取出静态网页爬虫:requests库同一主体的信息并进行展示,例如企查查动态网页爬虫:requests库和selenium库和天眼查等
网络爬虫的分类与应用场景 根据网络爬虫的规模大小分为: 网络爬虫分类 ➢ 全网站爬虫:爬取工作量较大,往往采用 scrapy爬虫框架来爬取。 ➢ 部分网站爬虫:可提炼网页变化规则,根据此 规则构造网址进行爬虫。 根据网页的编写方式分为: ➢ 静态网页爬虫:requests库 ➢ 动态网页爬虫:requests库和selenium库 网络爬虫应用场景 • 信息检索领域:搜索引擎的检索功能 • 金融领域:批量获取企业新闻、公司年报 等,优化投融资决策 • 电商领域:获取店铺产品、比价和流量等, 分析产品市场竞争力 • 学术研究领域:从数据库中无法获取的大 数据(上市公司舆情数据) • 信息聚合领域:从各类公开数据中提取出 同一主体的信息并进行展示,例如企查查 和天眼查等
网络爬虫与反爬虫大部分网络爬虫失败的原因都来常见的反爬虫机制自于网站本身的反爬虫设置。IP访问频率限制登录限制网页验证码等网络爬虫的法律问题检查在网站根目录下存在robots协议,其中标注了该网站的哪些页面可以被抓取、哪些页面不可以被抓取
网络爬虫与反爬虫 ◆ 大部分网络爬虫失败的原因都来 自于网站本身的反爬虫设置。 ◆ 常见的反爬虫机制 ✓ IP访问频率限制 ✓ 登录限制 ✓ 网页验证码等 ◆ 网络爬虫的法律问题 检查在网站根目录下存在robots协 议,其中标注了该网站的哪些页面可以被 抓取、哪些页面不可以被抓取
02网络爬虫之信息获取
02 网络爬虫之信息获取