Python爬虫:动态漫画图片抓取
off999 2025-05-30 16:55 22 浏览 0 评论
当今互联网,为了防止内容被轻易抓取,网站的反爬机制可谓是花样百出。其中,动态加载图片、隐藏真实链接、图片分割重组以及加载后自动清除 Canvas 等技术,给爬虫工程师带来了不小的挑战。本文将结合一个实际案例,分享如何应对这些反爬策略,成功抓取动态加载的漫画图片。
案例背景:动态漫画图片的抓取挑战
我们以一个漫画网站为例,该网站的图片加载方式有以下几个特点:
- 动态加载与 Canvas 渲染:漫画图片并非直接通过 <img> 标签展示,而是通过 JavaScript 动态生成,并渲染到 HTML5 的 <canvas> 元素上。这意味着无法直接通过解析 HTML 获取图片链接。
- 隐藏真实链接:图片源数据通常以 Base64 编码的形式存在,并由 JavaScript 动态添加到 Canvas 中,原始图片链接并未直接暴露在 HTML 源码中。
- 图片分割与重组(隐式):虽然本案例代码没有明确体现图片分割重组,但这种技术在动态加载图片中很常见。网站可能将一张图片分割成多份,分别加载到不同的 Canvas 区域,或者通过 CSS 偏移等方式进行视觉上的重组,增加爬取难度。
- 加载后自动清除 Canvas (潜在挑战):某些网站为了节省资源或进一步反爬,可能会在图片渲染到 Canvas 后,将 Canvas 元素清除或其内容清空。这要求爬虫必须在 Canvas 内容存在时及时获取数据。
技术选型:Selenium 模拟浏览器行为
面对上述挑战,传统的 requests + BeautifulSoup 组合显得力不从心,因为它们无法执行 JavaScript。此时,Selenium 成为了理想的选择。Selenium 允许我们模拟真实用户的浏览器行为,包括执行 JavaScript、滚动页面、等待元素加载等,从而获取动态生成的内容。
爬取实战:代码解析与策略
下面我们将详细解析给定的 Python 代码,了解如何一步步抓取动态加载的漫画图片。
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import base64
import os
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
url = "https://www.comicbox.com/.../..."
service = Service(executable_path=r"D:\chromedriver-win64\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url)
os.makedirs("comic_images", exist_ok=True)
count = 1
# 找到所有漫画页的div(每个div会生成一个canvas)
divs = driver.find_elements(By.CSS_SELECTOR, "div.cropped[data-src]")
for i, div in enumerate(divs):
try:
# 让div进入视口,触发canvas渲染
driver.execute_script("arguments[0].scrollIntoView();", div)
time.sleep(2) # 停留等待canvas生成,可根据网速调整
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.TAG_NAME, "canvas"))
) # 等待canvas加载完成
# 查找div下的canvas
canvas = None
try:
canvas = div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit")
except:
canvases = driver.find_elements(By.CSS_SELECTOR, "canvas.canvas-fit")
if len(canvases) > i:
canvas = canvases[i]
if canvas:
# 获取 Base64 数据
data_url = driver.execute_script("return arguments[0].toDataURL();", canvas)
'''
在 JavaScript 的 toDataURL() 方法中,返回的 Base64 数据包含了图片的格式信息,
但它是以字符串的形式嵌入在数据头部的。
例如:data:image/jpeg;base64,/9j/4AAQSkZJRgABAQE...
'''
# 使用正则表达式提取图片格式
match = re.match(r"data:image/(\w+);base64,", data_url)
if match:
ext = match.group(1) # 提取格式,例如 'jpeg', 'png', 'webp'
else:
ext = "unknown"
# 保存图片
b64 = data_url.split(",", 1)[1]
with open(f"comic_images/page_{count}.{ext}", "wb") as f:
f.write(base64.b64decode(b64))
print(f"保存 page_{count}.{ext}")
count += 1
else:
print(f"未找到第{i+1}页的canvas")
except Exception as e:
print(f"处理第{i+1}页时出错: {e}")
input("抓取完成,按回车键关闭浏览器...")
driver.quit()
1. 初始化 WebDriver
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
url = "https://www.comicbox.com/.../..."
service = Service(executable_path=r"D:\PY\chromedriver-win64\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url)
这里我们导入必要的模块,设置 ChromeDriver 的路径,并通过 driver.get(url) 访问目标网页。确保你已经下载了与你的 Chrome 浏览器版本兼容的 ChromeDriver。
2. 定位图片容器
divs = driver.find_elements(By.CSS_SELECTOR, "div.cropped[data-src]")
通过观察网页结构,我们发现每个漫画页都对应一个具有 cropped 类和 data-src 属性的 div 元素。这些 div 元素是 Canvas 生成的容器。(不同网站情况可能不一样,需自行分析目标网页结构)
3. 模拟滚动与等待 Canvas 渲染
for i, div in enumerate(divs):
try:
# 让div进入视口,触发canvas渲染
driver.execute_script("arguments[0].scrollIntoView();", div)
time.sleep(2) # 停留等待canvas生成,可根据网速调整
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.TAG_NAME, "canvas"))
) # 等待canvas加载完成
这是爬取动态加载图片的关键步骤。为了让浏览器渲染 Canvas,我们需要将对应的 div 元素滚动到可视区域内。
- driver.execute_script("arguments[0].scrollIntoView();", div):执行 JavaScript 将 div 元素滚动到视图中。
- time.sleep(2):这里设置了一个固定的等待时间,用于等待 Canvas 内容的渲染。根据实际情况,可以调整这个时间,或者使用更智能的等待方式。
- WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, "canvas"))):使用 Selenium 的 WebDriverWait 机制,显式等待 <canvas> 元素出现在 DOM 中,最大等待时间为 10 秒。这比固定 time.sleep 更健壮。
4. 获取 Canvas 元素并提取 Base64 数据
canvas = None
try:
canvas = div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit")
except:
canvases = driver.find_elements(By.CSS_SELECTOR, "canvas.canvas-fit")
if len(canvases) > i:
canvas = canvases[i]
if canvas:
# 获取 Base64 数据
data_url = driver.execute_script("return arguments[0].toDataURL();", canvas)
在 Canvas 渲染完成后,我们需要找到对应的 canvas 元素。
- div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit"):首先尝试在当前 div 下查找具有 canvas-fit 类的 canvas 元素。
- 如果特定 div 下的 canvas 未找到,代码会尝试查找页面上所有 canvas.canvas-fit 元素,并根据当前 div 的索引来获取对应的 canvas。这是一种鲁棒性处理,应对某些复杂页面结构。
- driver.execute_script("return arguments[0].toDataURL();", canvas):这是核心步骤!toDataURL() 是 HTML Canvas API 提供的一个方法,它能够将 Canvas 上的内容转换为 Base64 编码的 Data URL 字符串。这个字符串包含了图片的媒体类型和 Base64 编码的图片数据。
5. 解析 Base64 数据并保存图片
# 使用正则表达式提取图片格式
match = re.match(r"data:image/(\w+);base64,", data_url)
if match:
ext = match.group(1) # 提取格式,例如 'jpeg', 'png', 'webp'
else:
ext = "unknown"
# 保存图片
b64 = data_url.split(",", 1)[1]
with open(f"comic_images/page_{count}.{ext}", "wb") as f:
f.write(base64.b64decode(b64))
print(f"保存 page_{count}.{ext}")
count += 1
获取到 data_url 后,我们需要从中提取图片的格式和实际的 Base64 数据。
- re.match(r"data:image/(\w+);base64,", data_url):使用正则表达式从 Data URL 中提取图片格式(例如 jpeg、png、webp)。
- data_url.split(",", 1)[1]:Data URL 格式为 data:image/jpeg;base64,/9j/...,通过 , 分割可以获取到 Base64 编码的图片数据部分。
- base64.b64decode(b64):将 Base64 编码的数据解码为二进制图片数据。
- with open(f"comic_images/page_{count}.{ext}", "wb") as f: f.write(base64.b64decode(b64)):将解码后的二进制数据写入文件,保存为图片。
总结与展望
通过以上技术,我们成功应对了网站的动态加载图片、隐藏真实链接等反爬机制。核心思想是利用 Selenium 模拟浏览器行为,执行 JavaScript,并通过 Canvas 的 toDataURL() 方法获取图片数据。
未来优化方向:
- 智能等待机制:当前代码中使用 time.sleep() 和 EC.presence_of_element_located 结合的方式,在某些网络环境或页面加载速度不稳定的情况下可能不够精确。可以考虑更复杂的等待条件,例如等待 Canvas 绘制完成(虽然 Canvas 本身没有直接的“绘制完成”事件,但可以通过观察其内容变化或加载完成后的特定 DOM 元素来判断)。
- 并发抓取:对于大量图片的爬取,可以考虑使用多线程或异步编程(如 asyncio),结合 Selenium 的无头模式,提高抓取效率。
- 代理与反识别:面对更严格的反爬策略,可能需要结合代理 IP 池、User-Agent 轮换、Headless 模式下的反检测(如 undetected_chromedriver)等技术。
希望这篇技术分享能为您在爬取动态加载图片时提供帮助。随着反爬技术的不断演进,爬虫技术也需要不断学习和创新,才能更好地应对挑战。
相关推荐
- 大文件传不动?WinRAR/7-Zip 入门到高手,这 5 个技巧让你效率翻倍
-
“这200张照片怎么传给女儿?微信发不了,邮箱附件又超限……”62岁的张阿姨对着电脑犯愁时,儿子只用了3分钟就把照片压缩成一个文件,还教她:“以后用压缩软件,比打包行李还方便!”职场人更懂这...
- 电脑解压缩软件推荐——7-Zip:免费、高效、简洁的文件管理神器
-
在日常工作中,我们经常需要处理压缩文件。无论是下载软件包、接收文件,还是存储大量数据,压缩和解压缩文件都成为了我们日常操作的一部分。而说到压缩解压软件,7-Zip绝对是一个不可忽视的名字。今天,我就来...
- 设置了加密密码zip文件要如何打开?这几个方法可以试试~
-
Zip是一种常见的压缩格式文件,文件还可以设置密码保护。那设置了密码的Zip文件要如何打开呢?不清楚的小伙伴一起来看看吧。当我们知道密码想要打开带密码的Zip文件,我们需要用到适用于Zip格式的解压缩...
- 大文件想要传输成功,怎么把ZIP文件分卷压缩
-
不知道各位小伙伴有没有这样的烦恼,发送很大很大的压缩包会受到限制,为此,想要在压缩过程中将文件拆分为几个压缩包并且同时为所有压缩包设置加密应该如何设置?方法一:使用7-Zip免费且强大的文件管理工具7...
- 高效处理 RAR 分卷压缩包:合并解压操作全攻略
-
在文件传输和存储过程中,当遇到大文件时,我们常常会使用分卷压缩的方式将其拆分成多个较小的压缩包,方便存储和传输。RAR作为一种常见的压缩格式,分卷压缩包的使用频率也很高。但很多人在拿到RAR分卷...
- 2个方法教你如何删除ZIP压缩包密码
-
zip压缩包设置了加密密码,每次解压文件都需要输入密码才能够顺利解压出文件,当压缩包文件不再需要加密的时候,大家肯定想删除压缩包密码,或是忘记了压缩包密码,想要通过删除操作将压缩包密码删除,就能够顺利...
- 速转!漏洞预警丨压缩软件Winrar目录穿越漏洞
-
WinRAR是一款功能强大的压缩包管理器,它是档案工具RAR在Windows环境下的图形界面。该软件可用于备份数据,缩减电子邮件附件的大小,解压缩从Internet上下载的RAR、ZIP及其它类...
- 文件解压方法和工具分享_文件解压工具下载
-
压缩文件减少文件大小,降低文件失效的概率,总得来说好处很多。所以很多文件我们下载下来都是压缩软件,很多小伙伴不知道怎么解压,或者不知道什么工具更好,所以今天做了文件解压方法和工具的分享给大家。一、解压...
- [python]《Python编程快速上手:让繁琐工作自动化》学习笔记3
-
1.组织文件笔记(第9章)(代码下载)1.1文件与文件路径通过importshutil调用shutil模块操作目录,shutil模块能够在Python程序中实现文件复制、移动、改名和删除;同时...
- Python内置tarfile模块:读写 tar 归档文件详解
-
一、学习目标1.1学习目标掌握Python内置模块tarfile的核心功能,包括:理解tar归档文件的原理与常见压缩格式(gzip/bz2/lzma)掌握tar文件的读写操作(创建、解压、查看、过滤...
- 使用python展开tar包_python拓展
-
类Unix的系统,打包文件经常使用的就是tar包,结合zip工具,可以方便的打包并解压。在python的标准库里面有tarfile库,可以方便实现生成了展开tar包。使用这个库最大的好处,可能就在于不...
- 银狐钓鱼再升级:白文件脚本化实现GO语言后门持久驻留
-
近期,火绒威胁情报中心监测到一批相对更为活跃的“银狐”系列变种木马。火绒安全工程师第一时间获取样本并进行分析。分析发现,该样本通过阿里云存储桶下发恶意文件,采用AppDomainManager进行白利...
- ZIP文件怎么打开?2个简单方法教你轻松搞定!
-
在日常工作和生活中,我们经常会遇到各种压缩文件,其中最常见的格式之一就是ZIP。ZIP文件通过压缩数据来减少文件大小,方便我们进行存储和传输。然而,对于初学者来说,如何打开ZIP文件可能会成为一个小小...
- Ubuntu—解压多个zip压缩文件.zip .z01 .z02
-
方法将所有zip文件放在同一目录中:zip_file.z01,zip_file.z02,zip_file.z03,...,zip_file.zip。在Zip3.0版本及以上,使用下列命令:将所有zi...
- 如何使用7-Zip对文件进行加密压缩
-
7-Zip是一款开源的文件归档工具,支持多种压缩格式,并提供了对压缩文件进行加密的功能。使用7-Zip可以轻松创建和解压.7z、.zip等格式的压缩文件,并且可以通过设置密码来保护压缩包中的...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)