Python爬虫:动态漫画图片抓取
off999 2025-05-30 16:55 6 浏览 0 评论
当今互联网,为了防止内容被轻易抓取,网站的反爬机制可谓是花样百出。其中,动态加载图片、隐藏真实链接、图片分割重组以及加载后自动清除 Canvas 等技术,给爬虫工程师带来了不小的挑战。本文将结合一个实际案例,分享如何应对这些反爬策略,成功抓取动态加载的漫画图片。
案例背景:动态漫画图片的抓取挑战
我们以一个漫画网站为例,该网站的图片加载方式有以下几个特点:
- 动态加载与 Canvas 渲染:漫画图片并非直接通过 <img> 标签展示,而是通过 JavaScript 动态生成,并渲染到 HTML5 的 <canvas> 元素上。这意味着无法直接通过解析 HTML 获取图片链接。
- 隐藏真实链接:图片源数据通常以 Base64 编码的形式存在,并由 JavaScript 动态添加到 Canvas 中,原始图片链接并未直接暴露在 HTML 源码中。
- 图片分割与重组(隐式):虽然本案例代码没有明确体现图片分割重组,但这种技术在动态加载图片中很常见。网站可能将一张图片分割成多份,分别加载到不同的 Canvas 区域,或者通过 CSS 偏移等方式进行视觉上的重组,增加爬取难度。
- 加载后自动清除 Canvas (潜在挑战):某些网站为了节省资源或进一步反爬,可能会在图片渲染到 Canvas 后,将 Canvas 元素清除或其内容清空。这要求爬虫必须在 Canvas 内容存在时及时获取数据。
技术选型:Selenium 模拟浏览器行为
面对上述挑战,传统的 requests + BeautifulSoup 组合显得力不从心,因为它们无法执行 JavaScript。此时,Selenium 成为了理想的选择。Selenium 允许我们模拟真实用户的浏览器行为,包括执行 JavaScript、滚动页面、等待元素加载等,从而获取动态生成的内容。
爬取实战:代码解析与策略
下面我们将详细解析给定的 Python 代码,了解如何一步步抓取动态加载的漫画图片。
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import base64
import os
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
url = "https://www.comicbox.com/.../..."
service = Service(executable_path=r"D:\chromedriver-win64\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url)
os.makedirs("comic_images", exist_ok=True)
count = 1
# 找到所有漫画页的div(每个div会生成一个canvas)
divs = driver.find_elements(By.CSS_SELECTOR, "div.cropped[data-src]")
for i, div in enumerate(divs):
try:
# 让div进入视口,触发canvas渲染
driver.execute_script("arguments[0].scrollIntoView();", div)
time.sleep(2) # 停留等待canvas生成,可根据网速调整
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.TAG_NAME, "canvas"))
) # 等待canvas加载完成
# 查找div下的canvas
canvas = None
try:
canvas = div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit")
except:
canvases = driver.find_elements(By.CSS_SELECTOR, "canvas.canvas-fit")
if len(canvases) > i:
canvas = canvases[i]
if canvas:
# 获取 Base64 数据
data_url = driver.execute_script("return arguments[0].toDataURL();", canvas)
'''
在 JavaScript 的 toDataURL() 方法中,返回的 Base64 数据包含了图片的格式信息,
但它是以字符串的形式嵌入在数据头部的。
例如:data:image/jpeg;base64,/9j/4AAQSkZJRgABAQE...
'''
# 使用正则表达式提取图片格式
match = re.match(r"data:image/(\w+);base64,", data_url)
if match:
ext = match.group(1) # 提取格式,例如 'jpeg', 'png', 'webp'
else:
ext = "unknown"
# 保存图片
b64 = data_url.split(",", 1)[1]
with open(f"comic_images/page_{count}.{ext}", "wb") as f:
f.write(base64.b64decode(b64))
print(f"保存 page_{count}.{ext}")
count += 1
else:
print(f"未找到第{i+1}页的canvas")
except Exception as e:
print(f"处理第{i+1}页时出错: {e}")
input("抓取完成,按回车键关闭浏览器...")
driver.quit()
1. 初始化 WebDriver
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
url = "https://www.comicbox.com/.../..."
service = Service(executable_path=r"D:\PY\chromedriver-win64\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url)
这里我们导入必要的模块,设置 ChromeDriver 的路径,并通过 driver.get(url) 访问目标网页。确保你已经下载了与你的 Chrome 浏览器版本兼容的 ChromeDriver。
2. 定位图片容器
divs = driver.find_elements(By.CSS_SELECTOR, "div.cropped[data-src]")
通过观察网页结构,我们发现每个漫画页都对应一个具有 cropped 类和 data-src 属性的 div 元素。这些 div 元素是 Canvas 生成的容器。(不同网站情况可能不一样,需自行分析目标网页结构)
3. 模拟滚动与等待 Canvas 渲染
for i, div in enumerate(divs):
try:
# 让div进入视口,触发canvas渲染
driver.execute_script("arguments[0].scrollIntoView();", div)
time.sleep(2) # 停留等待canvas生成,可根据网速调整
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.TAG_NAME, "canvas"))
) # 等待canvas加载完成
这是爬取动态加载图片的关键步骤。为了让浏览器渲染 Canvas,我们需要将对应的 div 元素滚动到可视区域内。
- driver.execute_script("arguments[0].scrollIntoView();", div):执行 JavaScript 将 div 元素滚动到视图中。
- time.sleep(2):这里设置了一个固定的等待时间,用于等待 Canvas 内容的渲染。根据实际情况,可以调整这个时间,或者使用更智能的等待方式。
- WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, "canvas"))):使用 Selenium 的 WebDriverWait 机制,显式等待 <canvas> 元素出现在 DOM 中,最大等待时间为 10 秒。这比固定 time.sleep 更健壮。
4. 获取 Canvas 元素并提取 Base64 数据
canvas = None
try:
canvas = div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit")
except:
canvases = driver.find_elements(By.CSS_SELECTOR, "canvas.canvas-fit")
if len(canvases) > i:
canvas = canvases[i]
if canvas:
# 获取 Base64 数据
data_url = driver.execute_script("return arguments[0].toDataURL();", canvas)
在 Canvas 渲染完成后,我们需要找到对应的 canvas 元素。
- div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit"):首先尝试在当前 div 下查找具有 canvas-fit 类的 canvas 元素。
- 如果特定 div 下的 canvas 未找到,代码会尝试查找页面上所有 canvas.canvas-fit 元素,并根据当前 div 的索引来获取对应的 canvas。这是一种鲁棒性处理,应对某些复杂页面结构。
- driver.execute_script("return arguments[0].toDataURL();", canvas):这是核心步骤!toDataURL() 是 HTML Canvas API 提供的一个方法,它能够将 Canvas 上的内容转换为 Base64 编码的 Data URL 字符串。这个字符串包含了图片的媒体类型和 Base64 编码的图片数据。
5. 解析 Base64 数据并保存图片
# 使用正则表达式提取图片格式
match = re.match(r"data:image/(\w+);base64,", data_url)
if match:
ext = match.group(1) # 提取格式,例如 'jpeg', 'png', 'webp'
else:
ext = "unknown"
# 保存图片
b64 = data_url.split(",", 1)[1]
with open(f"comic_images/page_{count}.{ext}", "wb") as f:
f.write(base64.b64decode(b64))
print(f"保存 page_{count}.{ext}")
count += 1
获取到 data_url 后,我们需要从中提取图片的格式和实际的 Base64 数据。
- re.match(r"data:image/(\w+);base64,", data_url):使用正则表达式从 Data URL 中提取图片格式(例如 jpeg、png、webp)。
- data_url.split(",", 1)[1]:Data URL 格式为 data:image/jpeg;base64,/9j/...,通过 , 分割可以获取到 Base64 编码的图片数据部分。
- base64.b64decode(b64):将 Base64 编码的数据解码为二进制图片数据。
- with open(f"comic_images/page_{count}.{ext}", "wb") as f: f.write(base64.b64decode(b64)):将解码后的二进制数据写入文件,保存为图片。
总结与展望
通过以上技术,我们成功应对了网站的动态加载图片、隐藏真实链接等反爬机制。核心思想是利用 Selenium 模拟浏览器行为,执行 JavaScript,并通过 Canvas 的 toDataURL() 方法获取图片数据。
未来优化方向:
- 智能等待机制:当前代码中使用 time.sleep() 和 EC.presence_of_element_located 结合的方式,在某些网络环境或页面加载速度不稳定的情况下可能不够精确。可以考虑更复杂的等待条件,例如等待 Canvas 绘制完成(虽然 Canvas 本身没有直接的“绘制完成”事件,但可以通过观察其内容变化或加载完成后的特定 DOM 元素来判断)。
- 并发抓取:对于大量图片的爬取,可以考虑使用多线程或异步编程(如 asyncio),结合 Selenium 的无头模式,提高抓取效率。
- 代理与反识别:面对更严格的反爬策略,可能需要结合代理 IP 池、User-Agent 轮换、Headless 模式下的反检测(如 undetected_chromedriver)等技术。
希望这篇技术分享能为您在爬取动态加载图片时提供帮助。随着反爬技术的不断演进,爬虫技术也需要不断学习和创新,才能更好地应对挑战。
- 上一篇:Python中如何操作Surface对象绘制图形?
- 已经是最后一篇了
相关推荐
- Python爬虫:动态漫画图片抓取
-
当今互联网,为了防止内容被轻易抓取,网站的反爬机制可谓是花样百出。其中,动态加载图片、隐藏真实链接、图片分割重组以及加载后自动清除Canvas等技术,给爬虫工程师带来了不小的挑战。本文将结合一个实...
- Python中如何操作Surface对象绘制图形?
-
在Surface对象上绘制图形分为加载图片和绘制图片两个步骤。(1)加载图片加载图片即将图片读取到程序中,通过pygame中image模块的load()方法可以向程序中加载图片,生成Surface对...
- 【猫狗识别系统】图像识别Python+TensorFlow+卷积神经网络算法
-
猫狗识别系统。通过TensorFlow搭建MobileNetV2轻量级卷积神经算法网络模型,通过对猫狗的图片数据集进行训练,得到一个进度较高的H5格式的模型文件。然后使用Django框架搭建了一个We...
- python中Django视图(view)的详解(附示例)
-
本篇文章给大家带来的内容是关于python中Django视图(view)的详解(附示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。一个视图函数(类),简称视图,是一个简单的Pyt...
- 使用Python实现pdf转图片
-
使用Python实现pdf转图片本文档主要描述将pdf的每一页保存为图片,在本例中,我们使用了PyMuPDF,PyMuPDF是MuPDF的Python绑定库,允许开发者通过Python...
- 资深大佬教你如何利用PyTorch实现图像识别(图文详解)
-
这篇文章主要给大家介绍了关于如何利用PyTorch实现图像识别的相关资料,文中通过图文以及实例代码介绍的非常详细,对大家学习或者使用PyTorch具有一定的参考学习价值,需要的朋友可以参考下目录使用t...
- 实战:谷歌图片搜索——用 Fastapi-MCP 快速从 0 开发一个 MCP Server
-
本文将指导你如何利用Fastapi-MCP快速搭建一个MCP服务器,以实现谷歌图片搜索功能,为AI应用提供强大的工具支持,从而提升AI的实用性和效率。Fastapi是一个PythonWeb框架,...
- python图片处理之图片切割
-
python图片切割在很多项目中都会用到,比如验证码的识别、目标检测、定点切割等,本文给大家带来python的两种切割方式:fromPILimportImage"""...
- Python图像识别实战(三):基于OpenCV实现批量单图像超分辨重建
-
前面我介绍了可视化的一些方法以及机器学习在预测方面的应用,分为分类问题(预测值是离散型)和回归问题(预测值是连续型)(具体见之前的文章)。从本期开始,我将做一个关于图像识别的系列文章,让读者慢慢理解p...
- Python 图像处理
-
以前照相从来没有那么容易。现在你只需要一部手机。拍照是免费的,如果我们不考虑手机的费用的话。就在上一代人之前,业余艺术家和真正的艺术家如果拍照非常昂贵,并且每张照片的成本也不是免费的。我们拍照是为了及...
- 游戏百解——利用Python图像识别玩连连看,手把手教你成为大师!
-
这是我自己用程序写的视频,利用Python图像识别算法玩转连连看。感兴趣可以自己看一下。游戏百解——连连看(大神版)前言:程序主要功能是先将练练看的整个大图切分成单个小图,然后进行循环遍历找出相似的图...
- 用Python进行机器学习(13)-图像特征提取
-
相对于前面的机器学习都是处理一些简单的数字,今天我们来用机器学习处理一点稍微高级的内容,我们进行图像的特征提取。图像的特征提取有很多的用途,比如图像分类、目标检测、图像检索、聚类分析、异常检测、图像生...
- 深入剖析Python基本函数:从基础到进阶的完整指南
-
引言Python作为一门简洁高效的编程语言,其函数系统是支撑代码模块化的核心机制。掌握Python函数的使用方法不仅能提升代码的可读性和复用性,还能帮助开发者理解面向对象编程和函数式编程的精髓。本文将...
- 在Python中将函数作为参数传入另一个函数中
-
在我们的Python学习中,我们学到的众多令人瞠目结舌的事实之一是,你可以将函数传入其他函数。你可以来回传递函数,因为在Python中,函数是对象。在使用Python的第一周,你可能不需要了解这些,但...
- 探索 Python CSV 模块的高级用法:从格式识别到数据转换的完整指南
-
CSV(逗号分隔值)是一种用于存储表格数据的文件格式。每一行代表一条数据记录,行内的各个字段由逗号分隔。这是数据领域最常见的文件扩展名之一,也是专业环境中最简单的数据交换格式之一。作为一名具备Pyt...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)