当前位置：和泉文库 > 计算机 > 浏览文档

《数据科学引论——Python之道》课程教学资源（教案讲义）05 数据收集

文件格式：PDF，文件大小：2.08MB，售价：2.52元

文档详细内容（约7页）

作。在循环中，我们先提取每条名言中的作者名，在每个quote对象上调用css 函数，找到HTML中的smal.author,提取其中的文本内容。由于一条名言可能包含多条smal.author,所以我们使用extract_first()提取第一条。接下来，我们再提取名言的文字内容，就是class=text中的文本内容，并且提取第一条信息。最后，我们要提取tags,tags有一点特殊，因为每条名言都有好几个tag,我们希望都能提取出来，所以提取它时不是调用extract_first(),而是调用extract0,这时会返回一个列表。最终，当我们得到三项关键信息之后，我们需要做一个整合，并输出整合的内容。因为我们目标是JSON格式，并且Python提供将字典直接转换成JSON的功能，所以我们先要把这三个变量转换成字典，然后将字典转换成JSON,最后写入到文件。最后两条语句是为了及时SON字符串写入文件，如果不写它们，写入就会在缓满了或其他适当条件满足时才触发。我们暂时不用去深究这两条语句的含义。每一个parser只针对一个网页，因为我们之前指定了两个网页，所以它会分别对两个网页都执行一遍，把所有的数据都爬取下来，并且输出到一个文件中。之后，我们就要执行一下这个爬虫来看看效果。前面的代码只是在定义爬虫任务，然后我们要如何真正执行任务呢？就需要让Scrapy去执行process..start)(,我们可以看到它输出的一些调试信息，执行爬虫任务启动后，将执行My9pde,这御分的代码块，如果确实非常了解scrapy的运行机制，那么可以做定制，否测不建议自行修改。 In [2]:from scrapy.cravler import CrawlerProcess process.crawl(MySpider) process..start()这句代码就是开始了整个泥虫过程，会输出一大维信息，可以无规我们可以从目录中找到写出的SON文件，使用文本编辑器打开，就可以发

点击进入文档下载页（PDF格式）

共7页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录