Python爬虫:如何实现异步加载爬取图片?
off999 2025-05-05 18:06 23 浏览 0 评论
当我们了解了前面讲过的不同库的网页爬取后,在实践当中会发现有的时候代码检查没有问题,就是爬取不到数据,这是因为碰到了使用异步加载技术的网页。
何为异步加载?
想理解异步加载技术,先要知道传统的网页是如何加载的,首先,传统的网页更新内容需要对整个页面进行刷新更新,资源浪费较大,但是现在常用的异步加载技术(AJAX:JavaScript和XML)指的就是一种交互式网页应用技术,如没有翻页,一致下滑可以不断更新网页部分数据信息,同时当前网页基础框架和网址等信息都不变指的就是异步加载技术,大大的节约了网络资源。
还有一种判断是否使用了异步加载的方法,就是通过查看数据是否在网页源代码中。
使用了异步加载的网页后,网页中的内容在HTML中是找不到文本信息的,这时候通过常规三大爬取库是抓不到信息的,因此需要逆向去寻找推导出来网页是如何加载数据的过程,这个过程就叫做逆向工程。
如何实现逆向工程?
以Pexels网站为例,我们来看一下如何实现逆向工程:
- 打开Chrome浏览器对应Pexels网站,右键检查,打开网页源代码,选择Network选项卡。
- 继续手动下滑网页,会发现XHR文件在不断加载更新,通过上图红框可以发现在固定变化的URL:
https://www.pexels.com/search/book/?format=js&seed=&page=2&type=
https://www.pexels.com/search/book/?format=js&seed=&page=3&type=
https://www.pexels.com/search/book/?format=js&seed=&page=4&type=
尝试删除上述URL中的部分,得到
https://www.pexels.com/search/book/? page=2发现也可以返回正常的网页
这样就逆向推导出来了真实的网页URL,也知道了网页的变化规律,可以开始进行数据爬取了。
由于Pexels图片网站设置了比较严格的反扒机制,后续我们来讲如何破解,我们用hippopx图片网站来进行实践练习,此网站也有大量精美免费无版权图片,大家可尝试看看。
详细代码如下:
import requests
from lxml import etree
import os
headers={
"accept": "xxxx",
"cookie": "xxxx",
"User-Agent": "xxxx",
"referer": "xxxx"
}
list=[]
file='存储路径'
url='https://www.hippopx.com/'
html=requests.get(url,headers=headers)
selector=etree.HTML(html.text)
imgs=selector.xpath('//*[@id="flow"]/li/figure/a/img')
for img in imgs:
photo=img.get('src')
list.append(photo)
for item in list:
print(item)
data=requests.get(item,headers=headers)
fp= open(file+'/'+item.split('/')[-1],'wb')
fp.write(data.content)
fp.close()运行结果如下:
存储图片如下:
以上就是异步加载的内容,大家有任何疑问欢迎随时交流!
--每天一小步,未来一大步!
相关推荐
- 改无线网密码的网址(改无线网密码的网站)
-
移动宽带无线网改密码,可以在移动网上营业厅办理,但更简单的办法是通过短信办理(详见如下第2条): 移动无线宽带短信操作方式: 1)开通业务:编写短信“KTWLAN”发送至10086。 注:短...
- c盘满了却不敢删(c盘满了清不掉)
-
1、运用磁盘清理软件清理C盘,大约可为C盘释放50M-800M空间。2、关闭休眠功能,在开始菜单的运行里输入powercfg-hoff指令,关闭休眠,此文件实际大小和物理内存是一样的,大约可以...
-
- 联想笔记本电脑怎么打开摄像头
-
联想笔记本怎么打开摄像头?1、点击电脑开始菜单栏,在弹出的窗口中点击【设置】。2、在”隐私和安全性“面板中点击【相机】选项。3、将【摄像头访问】右侧的开关打开。材料/工具:以联想Y460笔记本为例。操作步骤如下:1、在电脑的桌面,打开我...
-
2025-12-12 19:51 off999
- win732纯净版系统gho(win732纯净版下载)
-
一,win7x32gho指的是32位的Windows7操作系统,gho指的是ghost方式封装的镜像文件,一般这种都是盗版系统。二,如果自己需要安装64位系统就不要选这个,内存低于3GB可以安装win...
- pscs6激活账户(pscs6激活账户和序列号免费)
-
pscs6破解补丁是AdobePhotoShopCs6版本的破解激活补丁,使用后不会弹出购买窗口,实现完美破解,无任何限制破解版软件扩展功能好像不好用!要用需要的扩展功能可以在网上下载需要的插件...
- 键盘皮肤下载(键盘皮肤下载软件免费有音效)
-
1、vivo自带的输入法不能更换键盘皮肤;2、建议可以下载第三方输入法更换皮肤,比如:搜狗输入法等;3、下载第三方输入法之后需要在设置-更多设置-输入法中设置为第三方的输入法使用;4、然后在输入法界面...
- win11如何格式化硬盘(win11硬盘分区怎么改成gpt)
-
win11系统格式化电脑和硬盘的方法如下1、打开本地磁盘管理页面,右键点击需要格式化的磁盘,选择【格式化】。2、在弹出的窗口中,勾选【快速格式化】,点击【开始】。3、最后等待格式化完成即可。1.首先我...
- 还原ghost文件(ghost怎么还原)
-
ghost还原系统的前提是你的电脑里面装有ghost备份还原软件,并已经为计算机做过ghost系统备份,它使得电脑系统出现小故障,不能启动时,能够快速的恢复系统。其操作方法步骤如下:1、下载ghost...
- 安卓虚拟机运行windows(安卓虚拟机运行机制)
-
安卓无法直接安装Windows虚拟机,但是可以通过使用虚拟机应用或者远程桌面软件来连接已安装了Windows系统的电脑,达到在安卓系统中使用Windows的效果。其中,使用虚拟机应用需要先root安卓...
- img精简版pe下载(img格式pe下载)
-
答:img系统格式用u盘安装的办法。1.将IMG压缩文件(.img.gz)解压缩,得到.img文件,然后通过Win32DiskImager写入最终的硬盘。2.写好的磁盘直接启动就是安装好的...
-
- 华为手机按键怎么调出来(oppo手机按键怎么调出来)
-
华为手机功能键是指屏幕内三键导航,设置方法∶打开手机设置,点击系统和更新,点击系统导航方式,选择屏幕内三键导航,就在底部设置了导航键。华为手机功能键设置方法1.点击辅助功能进入华为手机的设置,点击辅助功能。2.点击系统导航方式点击系...
-
2025-12-12 13:51 off999
- 连接隔壁加密wifi密码(连接隔壁加密wifi密码有危险吗)
-
第一步:打开手机桌面上的万能钥匙后进入。第二步:点击右上角的一键查询万能钥匙搜索可用的无线网络。第三步:搜索完成后,可以看到无线网旁边有一个小钥匙图案,代表无线网可以连接。第四步:点击带钥匙图案的无线...
- win10系统为啥强制更新(win10系统强制更新怎么办)
-
当设置中系统更新处的wlan环境下自动更新开关打开时,手机满足连接wlan网络,手机屏幕熄灭和在充电状态的条件,条件满足将会进行智能更新下载。关闭时需要手动更新。任何手机都有新系统推送,推送新的功能,...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
使用 python-fire 快速构建 CLI_如何搭建python项目架构
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
