Python爬虫:动态漫画图片抓取
off999 2025-05-30 16:55 45 浏览 0 评论
当今互联网,为了防止内容被轻易抓取,网站的反爬机制可谓是花样百出。其中,动态加载图片、隐藏真实链接、图片分割重组以及加载后自动清除 Canvas 等技术,给爬虫工程师带来了不小的挑战。本文将结合一个实际案例,分享如何应对这些反爬策略,成功抓取动态加载的漫画图片。
案例背景:动态漫画图片的抓取挑战
我们以一个漫画网站为例,该网站的图片加载方式有以下几个特点:
- 动态加载与 Canvas 渲染:漫画图片并非直接通过 <img> 标签展示,而是通过 JavaScript 动态生成,并渲染到 HTML5 的 <canvas> 元素上。这意味着无法直接通过解析 HTML 获取图片链接。
- 隐藏真实链接:图片源数据通常以 Base64 编码的形式存在,并由 JavaScript 动态添加到 Canvas 中,原始图片链接并未直接暴露在 HTML 源码中。
- 图片分割与重组(隐式):虽然本案例代码没有明确体现图片分割重组,但这种技术在动态加载图片中很常见。网站可能将一张图片分割成多份,分别加载到不同的 Canvas 区域,或者通过 CSS 偏移等方式进行视觉上的重组,增加爬取难度。
- 加载后自动清除 Canvas (潜在挑战):某些网站为了节省资源或进一步反爬,可能会在图片渲染到 Canvas 后,将 Canvas 元素清除或其内容清空。这要求爬虫必须在 Canvas 内容存在时及时获取数据。
技术选型:Selenium 模拟浏览器行为
面对上述挑战,传统的 requests + BeautifulSoup 组合显得力不从心,因为它们无法执行 JavaScript。此时,Selenium 成为了理想的选择。Selenium 允许我们模拟真实用户的浏览器行为,包括执行 JavaScript、滚动页面、等待元素加载等,从而获取动态生成的内容。
爬取实战:代码解析与策略
下面我们将详细解析给定的 Python 代码,了解如何一步步抓取动态加载的漫画图片。
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import base64
import os
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
url = "https://www.comicbox.com/.../..."
service = Service(executable_path=r"D:\chromedriver-win64\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url)
os.makedirs("comic_images", exist_ok=True)
count = 1
# 找到所有漫画页的div(每个div会生成一个canvas)
divs = driver.find_elements(By.CSS_SELECTOR, "div.cropped[data-src]")
for i, div in enumerate(divs):
try:
# 让div进入视口,触发canvas渲染
driver.execute_script("arguments[0].scrollIntoView();", div)
time.sleep(2) # 停留等待canvas生成,可根据网速调整
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.TAG_NAME, "canvas"))
) # 等待canvas加载完成
# 查找div下的canvas
canvas = None
try:
canvas = div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit")
except:
canvases = driver.find_elements(By.CSS_SELECTOR, "canvas.canvas-fit")
if len(canvases) > i:
canvas = canvases[i]
if canvas:
# 获取 Base64 数据
data_url = driver.execute_script("return arguments[0].toDataURL();", canvas)
'''
在 JavaScript 的 toDataURL() 方法中,返回的 Base64 数据包含了图片的格式信息,
但它是以字符串的形式嵌入在数据头部的。
例如:data:image/jpeg;base64,/9j/4AAQSkZJRgABAQE...
'''
# 使用正则表达式提取图片格式
match = re.match(r"data:image/(\w+);base64,", data_url)
if match:
ext = match.group(1) # 提取格式,例如 'jpeg', 'png', 'webp'
else:
ext = "unknown"
# 保存图片
b64 = data_url.split(",", 1)[1]
with open(f"comic_images/page_{count}.{ext}", "wb") as f:
f.write(base64.b64decode(b64))
print(f"保存 page_{count}.{ext}")
count += 1
else:
print(f"未找到第{i+1}页的canvas")
except Exception as e:
print(f"处理第{i+1}页时出错: {e}")
input("抓取完成,按回车键关闭浏览器...")
driver.quit()
1. 初始化 WebDriver
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
url = "https://www.comicbox.com/.../..."
service = Service(executable_path=r"D:\PY\chromedriver-win64\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url)
这里我们导入必要的模块,设置 ChromeDriver 的路径,并通过 driver.get(url) 访问目标网页。确保你已经下载了与你的 Chrome 浏览器版本兼容的 ChromeDriver。
2. 定位图片容器
divs = driver.find_elements(By.CSS_SELECTOR, "div.cropped[data-src]")
通过观察网页结构,我们发现每个漫画页都对应一个具有 cropped 类和 data-src 属性的 div 元素。这些 div 元素是 Canvas 生成的容器。(不同网站情况可能不一样,需自行分析目标网页结构)
3. 模拟滚动与等待 Canvas 渲染
for i, div in enumerate(divs):
try:
# 让div进入视口,触发canvas渲染
driver.execute_script("arguments[0].scrollIntoView();", div)
time.sleep(2) # 停留等待canvas生成,可根据网速调整
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.TAG_NAME, "canvas"))
) # 等待canvas加载完成
这是爬取动态加载图片的关键步骤。为了让浏览器渲染 Canvas,我们需要将对应的 div 元素滚动到可视区域内。
- driver.execute_script("arguments[0].scrollIntoView();", div):执行 JavaScript 将 div 元素滚动到视图中。
- time.sleep(2):这里设置了一个固定的等待时间,用于等待 Canvas 内容的渲染。根据实际情况,可以调整这个时间,或者使用更智能的等待方式。
- WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, "canvas"))):使用 Selenium 的 WebDriverWait 机制,显式等待 <canvas> 元素出现在 DOM 中,最大等待时间为 10 秒。这比固定 time.sleep 更健壮。
4. 获取 Canvas 元素并提取 Base64 数据
canvas = None
try:
canvas = div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit")
except:
canvases = driver.find_elements(By.CSS_SELECTOR, "canvas.canvas-fit")
if len(canvases) > i:
canvas = canvases[i]
if canvas:
# 获取 Base64 数据
data_url = driver.execute_script("return arguments[0].toDataURL();", canvas)
在 Canvas 渲染完成后,我们需要找到对应的 canvas 元素。
- div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit"):首先尝试在当前 div 下查找具有 canvas-fit 类的 canvas 元素。
- 如果特定 div 下的 canvas 未找到,代码会尝试查找页面上所有 canvas.canvas-fit 元素,并根据当前 div 的索引来获取对应的 canvas。这是一种鲁棒性处理,应对某些复杂页面结构。
- driver.execute_script("return arguments[0].toDataURL();", canvas):这是核心步骤!toDataURL() 是 HTML Canvas API 提供的一个方法,它能够将 Canvas 上的内容转换为 Base64 编码的 Data URL 字符串。这个字符串包含了图片的媒体类型和 Base64 编码的图片数据。
5. 解析 Base64 数据并保存图片
# 使用正则表达式提取图片格式
match = re.match(r"data:image/(\w+);base64,", data_url)
if match:
ext = match.group(1) # 提取格式,例如 'jpeg', 'png', 'webp'
else:
ext = "unknown"
# 保存图片
b64 = data_url.split(",", 1)[1]
with open(f"comic_images/page_{count}.{ext}", "wb") as f:
f.write(base64.b64decode(b64))
print(f"保存 page_{count}.{ext}")
count += 1
获取到 data_url 后,我们需要从中提取图片的格式和实际的 Base64 数据。
- re.match(r"data:image/(\w+);base64,", data_url):使用正则表达式从 Data URL 中提取图片格式(例如 jpeg、png、webp)。
- data_url.split(",", 1)[1]:Data URL 格式为 data:image/jpeg;base64,/9j/...,通过 , 分割可以获取到 Base64 编码的图片数据部分。
- base64.b64decode(b64):将 Base64 编码的数据解码为二进制图片数据。
- with open(f"comic_images/page_{count}.{ext}", "wb") as f: f.write(base64.b64decode(b64)):将解码后的二进制数据写入文件,保存为图片。
总结与展望
通过以上技术,我们成功应对了网站的动态加载图片、隐藏真实链接等反爬机制。核心思想是利用 Selenium 模拟浏览器行为,执行 JavaScript,并通过 Canvas 的 toDataURL() 方法获取图片数据。
未来优化方向:
- 智能等待机制:当前代码中使用 time.sleep() 和 EC.presence_of_element_located 结合的方式,在某些网络环境或页面加载速度不稳定的情况下可能不够精确。可以考虑更复杂的等待条件,例如等待 Canvas 绘制完成(虽然 Canvas 本身没有直接的“绘制完成”事件,但可以通过观察其内容变化或加载完成后的特定 DOM 元素来判断)。
- 并发抓取:对于大量图片的爬取,可以考虑使用多线程或异步编程(如 asyncio),结合 Selenium 的无头模式,提高抓取效率。
- 代理与反识别:面对更严格的反爬策略,可能需要结合代理 IP 池、User-Agent 轮换、Headless 模式下的反检测(如 undetected_chromedriver)等技术。
希望这篇技术分享能为您在爬取动态加载图片时提供帮助。随着反爬技术的不断演进,爬虫技术也需要不断学习和创新,才能更好地应对挑战。
相关推荐
- 安全教育登录入口平台(安全教育登录入口平台官网)
-
122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...
- 大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)
-
大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...
-
- 哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
-
要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...
-
2026-02-04 09:03 off999
- 电信宽带测速官网入口(电信宽带测速官网入口app)
-
这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...
- 植物大战僵尸95版手机下载(植物大战僵尸95 版下载)
-
1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...
- 免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)
-
1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...
- 2025世界杯赛程表(2025世界杯在哪个国家)
-
2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...
- 下载搜狐视频电视剧(搜狐电视剧下载安装)
-
搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...
- 永久免费听歌网站(丫丫音乐网)
-
可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...
- 音乐格式转换mp3软件(音乐格式转换器免费版)
-
有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...
- 电子书txt下载(免费的最全的小说阅读器)
-
1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...
- 最好免费观看高清电影(播放免费的最好看的电影)
-
在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...
- 孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)
-
要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
win7系统还原步骤图解(win7还原电脑系统的步骤)
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
16949认证费用是多少(16949审核员太难考了)
-
linux软件(linux软件图标)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
windows7旗舰版多少钱(win7旗舰版要多少钱)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
