当前位置：网站首页 > 技术资源 > 正文

神一般存在的Scrapy框架,Python中Scrapy的基本结构和去重原理

off999 2024-10-02 18:50 50 浏览 0 评论

"Scrapy的基本结构是什么样的, Scrapy的指纹去重到底是什么原理",面试官经常这么问.

1.scrapy的基本结构（五个部分都是什么，请求发出去的整个流程）

2.scrapy的去重原理（指纹去重到底是什么原理）

一、Scrapy

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试.

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持.

二、Scrapy五大基本构成:

Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。

(1)、调度器(Scheduler):

调度器，说白了可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址（不做无用功）。用户可以跟据自己的需求定制调度器。

(2)、下载器(Downloader):

下载器，是所有组件中负担最大的，它用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)。

(3)、爬虫（Spider）:

爬虫，是用户最关心的部份。用户定制自己的爬虫，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。

(4)、实体管道(Item Pipeline):

实体管道，用于处理爬虫提取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。

(5)、Scrapy引擎(Scrapy Engine):

Scrapy引擎是整个框架的核心.它用来控制调试器、下载器、爬虫。实际上，引擎相当于计算机的CPU,它控制着整个流程。

三、Scrapy请求发出去的整个流程

Scrapy运行时,请求发出去的整个流程大概如下：

1.首先爬虫将需要发送请求的url(requests)经引擎交给调度器;

2.排序处理后，经ScrapyEngine，DownloaderMiddlewares(有User_Agent, Proxy代理)交给Downloader;

3.Downloader向互联网发送请求，并接收下载响应.将响应经ScrapyEngine，可选交给Spiders;

4.Spiders处理response，提取数据并将数据经ScrapyEngine交给ItemPipeline保存;

5.提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url请求程序停止结束。

四、Scrapy去重原理

1.Scrapy本身自带有一个中间件;

2.scrapy源码中可以找到一个dupefilters.py去重器;

3.需要将dont_filter设置为False开启去重，默认是True，没有开启去重；

4 .对于每一个url的请求，调度器都会根据请求得相关信息加密得到一个指纹信息，并且将指纹信息和set()集合中的指纹信息进行比对，如果set()集合中已经存在这个数据，就不在将这个Request放入队列中;

5.如果set()集合中没有存在这个加密后的数据，就将这个Request对象放入队列中，等待被调度。

python去重

上一篇：Python中用pandas对标Excel自带功能——去除重复项
下一篇：python爬虫(网页重定向怎么破?)（python网页爬虫案例）

神一般存在的Scrapy框架,Python中Scrapy的基本结构和去重原理

相关推荐

取消回复欢迎你发表评论:

中华人民共和国历届领导（中华人民共和国历届领导班子成员及照片）

网盘在哪里打开（华为网盘在哪里打开）

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

win7系统还原步骤图解（win7还原电脑系统的步骤）

苹果手机怎么下载软件并安装

夜晚十大禁用直播app（未成年人禁止出镜直播）

python入门到脱坑输入与输出—str()函数

神一般存在的Scrapy框架,Python中Scrapy的基本结构和去重原理

相关推荐

取消回复欢迎 你 发表评论:

中华人民共和国历届领导（中华人民共和国历届领导班子成员及照片）

网盘在哪里打开（华为网盘在哪里打开）

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

win7系统还原步骤图解（win7还原电脑系统的步骤）

苹果手机怎么下载软件并安装

夜晚十大禁用直播app（未成年人禁止出镜直播）

python入门到脱坑 输入与输出—str()函数

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数