scrapy爬虫框架的使用
Scrapy的介绍scrapy的工作流程如下图所示: 爬虫: 负责向引擎提供要爬取网页的URL,引擎会把这个URL封装成request对象并传递给调度器, 把引擎传递过来的response对象进行数据解析。数据解析有两种结果: 解析出具体的数据,那么通过引擎把这个具体的数据传递给管道,然后存入文件、数据库等 解析出一个新的URL,那么过程同作用1 管道:负责把引擎传递过来的数据进行存储,存入文件、数据库等。管道可以有多个,比如MySQL的管道,某个文件的管道,mango的管道等。 调度器:可以把调度器的存储结构看成一个优先队列,不同的request对象可能优先级不一样,按优先级的高低进行调度 把引擎传递过来的request对象放入队列进行排队,调度器可以实现去重的效果,即对两个相同的URL,只存储一个 向引擎提供队头的request对象(即优先级高的request对象),引擎把这个request对象传递给下载器进行请求 下载器:把引擎传递过来的request对象发送给服务器请求数据,并把服务器返回的内容封装成response对象,...
