【scrapy】
标签:
爬虫框架
结构化爬取
前边介绍 Rqeusts 库已经能应对大部分爬虫工作,但是它是基于页面及的爬虫库,而 Scrapy 是一个重量级的爬虫框架,它提供了一整套工具:包含对页面的爬取,爬取规则的制定,数据的提取,入库等。
Requests 和 Scrapy 比较如下:
页面及爬虫 |
网站及爬虫 |
功能库 |
框架 |
并发性考虑不足,性能较差 |
并发性好,性能较高 |
重点在于页面下载 |
重点在于爬虫结构 |
定制灵活 |
一般定制灵活,深度定制困难 |
上手十分简单 |
入门少难 |
Scrapy 架构:
Scrapy 运行流程:
Scrapy 使用流程:
爬虫的编写:
当运行了上面命令 scrapy genspider 后,会在目录 ->-> 下生成 ,
这就是需要编写的爬虫文件,命令已经用模板生成了它的默认代码,假如命令为:scrapy genspider my_spider scrapyd.cn,则生成的代码如下: