小五的个人杂货铺

发表于2025-07-22|更新于2025-09-15|python|python•scrapy•爬虫

Scrapy的介绍scrapy的工作流程如下图所示：爬虫：负责向引擎提供要爬取网页的URL，引擎会把这个URL封装成request对象并传递给调度器，把引擎传递过来的response对象进行数据解析。数据解析有两种结果：解析出具体的数据，那么通过引擎把这个具体的数据传递给管道，然后存入文件、数据库等解析出一个新的URL，那么过程同作用1 管道：负责把引擎传递过来的数据进行存储，存入文件、数据库等。管道可以有多个，比如MySQL的管道，某个文件的管道，mango的管道等。调度器：可以把调度器的存储结构看成一个优先队列，不同的request对象可能优先级不一样，按优先级的高低进行调度把引擎传递过来的request对象放入队列进行排队，调度器可以实现去重的效果，即对两个相同的URL，只存储一个向引擎提供队头的request对象（即优先级高的request对象），引擎把这个request对象传递给下载器进行请求下载器：把引擎传递过来的request对象发送给服务器请求数据，并把服务器返回的内容封装成response对象，然后把这个response对...