Python爬虫速度很慢?并发编程了解一下吧
off999 2024-09-16 00:41 42 浏览 0 评论
文章目录
- 前言
- 基础知识
- GIL
- 多线程
- 创建Thread 对象
- 自定义类继承 Thread
私信小编01即可获取大量Python学习资源
前言
网络爬虫程序是一种智能 IO 密集型(页面请求,文件读取)程序,会阻塞程序的运行消耗大量时间,而 Python 提供多种并发编程方式,能够在一定程度上提升 IO 密集型程序的执行效率低。在开始之前你要先了解以下概念!
基础知识
并发:一段时间内发生某些事情。在单核 CPU 中,执行多个任务是以并发的方式运行的,由于只有一个核心处理器,CPU 把一个时间段划分成几个时间区间,各个任务只会在自己的时间区间执行,如果在自己的时间阶段没有完成任务,就会切换到下一个任务,由于各个时间段很短,切换频繁,所以给人的感觉是“同时”运行。
并行:同一时刻进行发生某些事情。在多核 CPU 中,是能够实现真正“同时”运行的,当一个 CPU 执行某个进程时,其他的 CPU 可以执行其他进程,两个进程互不抢占 CPU 资源。
同步:同步中各个任务不是独自运行的,任务之间有交替顺序,只有前一个任务完成后,后面的任务才能够开始运行。
异步:异步中各个任务可以独自运行,任务之间不会互相影响。
在爬虫过程中,异步相当于打开一个网页之后,不需要等待页面加载完成,继续打开新的网页。同步相当于打开一个网页,要等待它完全加载完才打开下一个网页。
提高爬虫速度的三种方式:多线程、多进程、协程。先来了解一下什么是进程,线程,协程?
进程:进程是一个可以独立运行的程序单位。 它是线程的集合,是由一个或多个线程构成的。
线程:是操作系统进行运算调度的最小单位,也是进程中的一个最小运行单元。
协程:协程是比线程更小的执行单元,可以说是一种轻量级的线程,线程的调度是在操作系统中进行的,而协程调度则是在用户空间进行的。它相对于线程的优点是切换成本更低。
GIL
GIL 全称(Global Interpreter Lock,全局解释器锁)在 Python 多线程下,每个线程的执行方式如下:
获取 GIL >>> 执行对应线程的代码 >>> 释放 GIL
一个线程想要执行,先要拿到 GIL,可以把 GIL 看作是许可证,并且在一个 Python 进程中,GIL 只有一个。拿到许可证才能够执行线程,这样就会导致,即使是多核条件下,一个 Python 进程下的多个线程,同一时刻也只能执行一个线程。
对于 IO 密集型(页面请求等) 任务来说,这个问题影响并不大;而对于 CPU密集型 任务来说,由于 GIL 的存在,多线程总体的运行效率相比可能反而比单线程更低。
多线程
多线程的应用场景: I/O 密集型 的程序。如
- 数据库请求
- 页面请求
- 读写文件
由于 GIL 的原因,全局只允许同一时间执行一个线程意味着: 为了保证各个线程都能完成自身的任务,需要频繁地进行 线程切换 操作。
Python 中实现多线程编程需要用到 threading 模块,我们每创建一个 Thread 对象就代表一个线程,每个线程可以去处理不同的任务。
创建 Thread 对象有 2 种方式。
- 将回调函数作为参数,直接创建 Thread 对象。
- 从 threading.Thread 继承创建一个新的子类,复写 run() 方法,实例化后调用 start() 方法启动新线程。
创建Thread 对象
threading.Thread(target=None, name=None, args=(), kwargs=None, *, daemon=None)
target:指定要被 run() 方法调用的可调用对象。默认为 None,表示不调用任何函数。
name:线程名。默认情况下,单一名称以 “Thread-N” 的形式构造,其中 N 是十进制数。
args:目标调用的参数元组(target 的固定参数)。默认为()。
kwargs:目标调用的关键字参数字典(target 的可变参数)。默认值为 None。
daemon:是否开启守护线程,默认 MainThread(主线程)需要等待其他线程结束后才会结束,默认值为 None.
import threading
import time
def block(second):
print(threading.current_thread().name, '线程正在运行')
# 休眠 second 秒
time.sleep(second)
print(threading.current_thread().name, '线程结束')
print(threading.current_thread().name, '线程正在运行')
for i in [1, 3]:
# 创建thread对象并指定回调函数block,name,以及固定参数i
thread = threading.Thread(target=block, name=f'thread test {i}', args=[i])
# 开启线程
thread.start()
print(threading.current_thread().name, '线程结束')
threading.current_thread().name 获取当前线程的名称。先简单说一下上面代码的逻辑,先定义函数 block,输出当前线程信息,循环两次创建 thread 对象,然后开启线程,最后输出线程结束信息。注意各个信息的输出顺序,在 test1、test3 线程结束前主线程就已经结束了。
相关推荐
- 国家企业信用信息公示系统湖北
-
首先要确定你输入的登录信息是正确的,主要是看联络员手机号显示的前三位和后三位是否正确,如果正确的话点获取验证码还收不到短信的话,有可能是工商局系统内备案的手机号码中间的某位数是错误的,我出现过同样的问...
- 公积金贷款利率是多少(五年期公积金贷款利率是多少)
-
自2022年10月1日起,公积金贷款利率,手套住房:五年期以下(含五年),贷款利率2.6%,五年期以上3.1%;第二套住房公积金贷款利率,五年期以下(含五年)3.025%,五年期以上3.575%。你好...
- 电脑总自动关机怎么解决(电脑总自动关机怎么办)
-
1、主机散热不良,这是最常见的一种,主要表现为:电脑声音不正常,如风扇转动的声音;主板等配件上有烧焦的痕迹或者闻一闻有烧焦的气味;cpu等主要元器件的温度,如cpu的温度过高等。2、病毒木马的...
- win7激活必须联网吗(win7激活要钱吗)
-
Windows操作系统在安装之后,需要激活才能正常使用。如果没有联网的情况下安装Windows操作系统,可以通过以下两种方法进行激活:1.电话激活:在Windows安装界面选择“电话激活”选项进行激活...
- 有必要买移动硬盘吗
-
1、虽然可以,但是不合算也不适合。 2、固态硬盘相对机械硬盘而言,胜出的是性能,软肋是寿命。 3、目前的硬盘盒大都是USB接口,成了固态硬盘的瓶颈,限制了固态硬盘性能的发挥。而固态硬盘最致命的...
- 移动宽带路由器怎么设置(移动宽带路由器怎么设置桥接模式)
-
1.结论:移动路由器设置过程包括SIM卡安装、路由器连接WiFi和设备、路由器管理界面设置等步骤。2.深入分析:(1)SIM卡安装1确认您购买的移动路由器支持的SIM卡规格,如果未知请咨询销售...
- 笔记本cpu天梯图全系列(笔记本cpu天梯图2020年最新版)
-
麒麟9000>>麒麟9000e>麒麟990>麒麟990e>麒麟980>麒麟985>麒麟820>麒麟820e>麒麟810>麒麟970>麒麟960>麒麟710>大于麒麟710a>麒麟950>麒麟955>...
- 怎么查询家里wifi密码(怎么查询家里wifi密码是多少)
-
一、通过已连接wifi的电脑查看1、找到电脑右下角的无线网图标,就是类似信号的图标,点开;2、然后右键自己的wifi名称,选择“属性”;3、进去之后勾选“显示字符”,然后就可以看见密码框的密码以数字显...
- 分区工具diskgenius怎么合并分区
-
DiskGenius是一款功能全面的磁盘管理工具,其可以帮助我们进行磁盘分区管理,包括创建新分区、删除分区、扩展分区等。如果您想要合并分区到C盘,可以按照以下步骤进行操作:1.打开DiskGeniu...
- windows10易升怎么用(微软windows10易升使用教程)
-
windows10易升是微软官方的。windows10易升是微软官方发布的升级助理或者叫升级助手(官方下载),帮助你升级到win10最新版本,同时也帮助Win7Win8.1用户升级到Windows1...
- 300兆光纤买什么路由器(300兆光纤买3000m的路由器有用吗)
-
对于300Mbps的网速,推荐选择支持AC750及以上的路由器型号。比如TP-LinkArcherC20、D-LinkDIR-816、NetgearR6020等,都是性价比不错的选择。此类路由...
- windows10产品密钥查询(查看windows10产品密钥)
-
要查看电脑上Windows10的产品密钥,你可以按照以下步骤进行操作:打开“开始”菜单,然后点击“设置”图标(齿轮状图标)。在“设置”窗口中,点击“更新和安全”选项。在左侧导航栏中,选择“激活”选项...
- 电脑总死机卡住不动怎么办(电脑老是死机卡住)
-
如果你的电脑经常卡死,而且只能强制关机,别忘了说明电脑这个配置不够造成的,你需要提高一下它的配置,比如说加一个内存条或者换一个固态硬盘,这样才能够正常运行,不然的话这种电脑是没有办法使用的,现在电脑都...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
使用 python-fire 快速构建 CLI_如何搭建python项目架构
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
