太原谁家网站做的好,企业宣传片一分钟多少钱,十大收益最好的自媒体平台,成都网站建设、在每一次学习一个新东西之前#xff0c;需要知道的几个问题。这个东西是什么(what),怎么使用(how)#xff0c;为什么(why) scrapy的概念#xff1a;Scrapy是一个为了爬取网站数据#xff0c;提取结构性数据而编写的框架。 scrapy的作用#xff1a;通过少量代码实现快速抓取… 在每一次学习一个新东西之前需要知道的几个问题。这个东西是什么(what),怎么使用(how)为什么(why) scrapy的概念Scrapy是一个为了爬取网站数据提取结构性数据而编写的框架。 scrapy的作用通过少量代码实现快速抓取。 scrapy一共有5个模块和2个中间件模块分别是Spider爬虫模块engine引擎模块scheduler调度器模块Downloader下载器模块Pipeline管道模块。中间件分别是Downloader--Middlewares(下载器中间件) Spider-Middlewares(爬虫中间件)。 engine引擎模块负责数据和信号在不同模块间的传递。 scheduler调度器模块实现一个队列存放引擎发过来的request请求对象。 Downloader下载器模块发送引擎发过来的request请求获取响应并将response传递给引擎。 Spider爬虫模块处理引擎发过来的response提取数据提取url并交给引擎。 Pipeline管道模块处理引擎传递过来的数据比如存储。格式可以是csv、json、mongodb、redis、mysql. 下载中间件(downloader middleware)可以自定义的下载扩展比如设置代理Ip。 爬虫中间件(spider middleware)可以自定义request请求和进行response过滤。 scrapy的工作原理流程 1.spider---request---engine 2.engine---request---scheduler 3.scheduler---request---engine 4.engine---request---downloader 5.downloader---response---engine 6.engine---response---spider 7.spider---new_url---engine 重复1-6 8.spider---data---engine 9.engine---data---pipeline scrapy框架的运行流程以及数据传递过程 调度器把requests--引擎--下载中间件---下载器下载器发送请求获取响应----下载中间件----引擎---爬虫中间件---爬虫爬虫提取url地址组装成request对象----爬虫中间件---引擎---调度器爬虫提取数据---引擎---管道管道进行数据的处理和保存 转载于:https://www.cnblogs.com/hjl666/p/10882737.html