百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python爬虫:动态漫画图片抓取

off999 2025-05-30 16:55 16 浏览 0 评论

当今互联网,为了防止内容被轻易抓取,网站的反爬机制可谓是花样百出。其中,动态加载图片、隐藏真实链接、图片分割重组以及加载后自动清除 Canvas 等技术,给爬虫工程师带来了不小的挑战。本文将结合一个实际案例,分享如何应对这些反爬策略,成功抓取动态加载的漫画图片。

案例背景:动态漫画图片的抓取挑战

我们以一个漫画网站为例,该网站的图片加载方式有以下几个特点:

  1. 动态加载与 Canvas 渲染:漫画图片并非直接通过 <img> 标签展示,而是通过 JavaScript 动态生成,并渲染到 HTML5 的 <canvas> 元素上。这意味着无法直接通过解析 HTML 获取图片链接。
  2. 隐藏真实链接:图片源数据通常以 Base64 编码的形式存在,并由 JavaScript 动态添加到 Canvas 中,原始图片链接并未直接暴露在 HTML 源码中。
  3. 图片分割与重组(隐式):虽然本案例代码没有明确体现图片分割重组,但这种技术在动态加载图片中很常见。网站可能将一张图片分割成多份,分别加载到不同的 Canvas 区域,或者通过 CSS 偏移等方式进行视觉上的重组,增加爬取难度。
  4. 加载后自动清除 Canvas (潜在挑战):某些网站为了节省资源或进一步反爬,可能会在图片渲染到 Canvas 后,将 Canvas 元素清除或其内容清空。这要求爬虫必须在 Canvas 内容存在时及时获取数据。

技术选型:Selenium 模拟浏览器行为

面对上述挑战,传统的 requests + BeautifulSoup 组合显得力不从心,因为它们无法执行 JavaScript。此时,Selenium 成为了理想的选择。Selenium 允许我们模拟真实用户的浏览器行为,包括执行 JavaScript、滚动页面、等待元素加载等,从而获取动态生成的内容。

爬取实战:代码解析与策略

下面我们将详细解析给定的 Python 代码,了解如何一步步抓取动态加载的漫画图片。

import re
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import base64
import os
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

url = "https://www.comicbox.com/.../..."
service = Service(executable_path=r"D:\chromedriver-win64\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url)

os.makedirs("comic_images", exist_ok=True)
count = 1

# 找到所有漫画页的div(每个div会生成一个canvas)
divs = driver.find_elements(By.CSS_SELECTOR, "div.cropped[data-src]")

for i, div in enumerate(divs):
    try:
        # 让div进入视口,触发canvas渲染
        driver.execute_script("arguments[0].scrollIntoView();", div)
        time.sleep(2)  # 停留等待canvas生成,可根据网速调整
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.TAG_NAME, "canvas"))
        )  # 等待canvas加载完成
        # 查找div下的canvas
        canvas = None
        try:
            canvas = div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit")
        except:
            canvases = driver.find_elements(By.CSS_SELECTOR, "canvas.canvas-fit")
            if len(canvases) > i:
                canvas = canvases[i]
        if canvas:
            # 获取 Base64 数据
            data_url = driver.execute_script("return arguments[0].toDataURL();", canvas)
            '''
            在 JavaScript 的 toDataURL() 方法中,返回的 Base64 数据包含了图片的格式信息,
            但它是以字符串的形式嵌入在数据头部的。
            例如:data:image/jpeg;base64,/9j/4AAQSkZJRgABAQE...
            '''
            # 使用正则表达式提取图片格式
            match = re.match(r"data:image/(\w+);base64,", data_url)
            if match:
                ext = match.group(1)  # 提取格式,例如 'jpeg', 'png', 'webp'
            else:
                ext = "unknown"

            # 保存图片
            b64 = data_url.split(",", 1)[1]
            with open(f"comic_images/page_{count}.{ext}", "wb") as f:
                f.write(base64.b64decode(b64))
            print(f"保存 page_{count}.{ext}")
            count += 1
        else:
            print(f"未找到第{i+1}页的canvas")
    except Exception as e:
        print(f"处理第{i+1}页时出错: {e}")

input("抓取完成,按回车键关闭浏览器...")
driver.quit()

1. 初始化 WebDriver

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

url = "https://www.comicbox.com/.../..."
service = Service(executable_path=r"D:\PY\chromedriver-win64\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.get(url)

这里我们导入必要的模块,设置 ChromeDriver 的路径,并通过 driver.get(url) 访问目标网页。确保你已经下载了与你的 Chrome 浏览器版本兼容的 ChromeDriver。

2. 定位图片容器

divs = driver.find_elements(By.CSS_SELECTOR, "div.cropped[data-src]")

通过观察网页结构,我们发现每个漫画页都对应一个具有 cropped 类和 data-src 属性的 div 元素。这些 div 元素是 Canvas 生成的容器。(不同网站情况可能不一样,需自行分析目标网页结构)

3. 模拟滚动与等待 Canvas 渲染

for i, div in enumerate(divs):
    try:
        # 让div进入视口,触发canvas渲染
        driver.execute_script("arguments[0].scrollIntoView();", div)
        time.sleep(2)  # 停留等待canvas生成,可根据网速调整
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.TAG_NAME, "canvas"))
        )  # 等待canvas加载完成

这是爬取动态加载图片的关键步骤。为了让浏览器渲染 Canvas,我们需要将对应的 div 元素滚动到可视区域内。

  • driver.execute_script("arguments[0].scrollIntoView();", div):执行 JavaScript 将 div 元素滚动到视图中。
  • time.sleep(2):这里设置了一个固定的等待时间,用于等待 Canvas 内容的渲染。根据实际情况,可以调整这个时间,或者使用更智能的等待方式。
  • WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, "canvas"))):使用 Selenium 的 WebDriverWait 机制,显式等待 <canvas> 元素出现在 DOM 中,最大等待时间为 10 秒。这比固定 time.sleep 更健壮。

4. 获取 Canvas 元素并提取 Base64 数据

        canvas = None
        try:
            canvas = div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit")
        except:
            canvases = driver.find_elements(By.CSS_SELECTOR, "canvas.canvas-fit")
            if len(canvases) > i:
                canvas = canvases[i]
        if canvas:
            # 获取 Base64 数据
            data_url = driver.execute_script("return arguments[0].toDataURL();", canvas)

在 Canvas 渲染完成后,我们需要找到对应的 canvas 元素。

  • div.find_element(By.CSS_SELECTOR, "canvas.canvas-fit"):首先尝试在当前 div 下查找具有 canvas-fit 类的 canvas 元素。
  • 如果特定 div 下的 canvas 未找到,代码会尝试查找页面上所有 canvas.canvas-fit 元素,并根据当前 div 的索引来获取对应的 canvas。这是一种鲁棒性处理,应对某些复杂页面结构。
  • driver.execute_script("return arguments[0].toDataURL();", canvas):这是核心步骤!toDataURL() 是 HTML Canvas API 提供的一个方法,它能够将 Canvas 上的内容转换为 Base64 编码的 Data URL 字符串。这个字符串包含了图片的媒体类型和 Base64 编码的图片数据。

5. 解析 Base64 数据并保存图片

            # 使用正则表达式提取图片格式
            match = re.match(r"data:image/(\w+);base64,", data_url)
            if match:
                ext = match.group(1)  # 提取格式,例如 'jpeg', 'png', 'webp'
            else:
                ext = "unknown"

            # 保存图片
            b64 = data_url.split(",", 1)[1]
            with open(f"comic_images/page_{count}.{ext}", "wb") as f:
                f.write(base64.b64decode(b64))
            print(f"保存 page_{count}.{ext}")
            count += 1

获取到 data_url 后,我们需要从中提取图片的格式和实际的 Base64 数据。

  • re.match(r"data:image/(\w+);base64,", data_url):使用正则表达式从 Data URL 中提取图片格式(例如 jpeg、png、webp)。
  • data_url.split(",", 1)[1]:Data URL 格式为 data:image/jpeg;base64,/9j/...,通过 , 分割可以获取到 Base64 编码的图片数据部分。
  • base64.b64decode(b64):将 Base64 编码的数据解码为二进制图片数据。
  • with open(f"comic_images/page_{count}.{ext}", "wb") as f: f.write(base64.b64decode(b64)):将解码后的二进制数据写入文件,保存为图片。

总结与展望

通过以上技术,我们成功应对了网站的动态加载图片、隐藏真实链接等反爬机制。核心思想是利用 Selenium 模拟浏览器行为,执行 JavaScript,并通过 Canvas 的 toDataURL() 方法获取图片数据。

未来优化方向:

  • 智能等待机制:当前代码中使用 time.sleep() 和 EC.presence_of_element_located 结合的方式,在某些网络环境或页面加载速度不稳定的情况下可能不够精确。可以考虑更复杂的等待条件,例如等待 Canvas 绘制完成(虽然 Canvas 本身没有直接的“绘制完成”事件,但可以通过观察其内容变化或加载完成后的特定 DOM 元素来判断)。
  • 并发抓取:对于大量图片的爬取,可以考虑使用多线程或异步编程(如 asyncio),结合 Selenium 的无头模式,提高抓取效率。
  • 代理与反识别:面对更严格的反爬策略,可能需要结合代理 IP 池、User-Agent 轮换、Headless 模式下的反检测(如 undetected_chromedriver)等技术。

希望这篇技术分享能为您在爬取动态加载图片时提供帮助。随着反爬技术的不断演进,爬虫技术也需要不断学习和创新,才能更好地应对挑战。

相关推荐

第九章:Python文件操作与输入输出

9.1文件的基本操作9.1.1打开文件理论知识:在Python中,使用open()函数来打开文件。open()函数接受两个主要参数:文件名和打开模式。打开模式决定了文件如何被使用,常见的模式有:&...

Python的文件处理

一、文件处理的流程1.打开文件,得到文件句柄并赋值给一个变量2.通过句柄对文件进行操作3.关闭文件示例:d=open('abc')data1=d.read()pri...

Python处理文本的25个经典操作

Python处理文本的优势主要体现在其简洁性、功能强大和灵活性。具体来说,Python提供了丰富的库和工具,使得对文件的读写、处理变得轻而易举。简洁的文件操作接口Python通过内置的open()函数...

Python学不会来打我(84)python复制文件操作总结

上一篇文章我们分享了python读写文件的操作,主要用到了open()、read()、write()等方法。这一次是在文件读写的基础之上,我们分享文件的复制。#python##python自学##...

python 文件操作

1.检查目录/文件使用exists()方法来检查是否存在特定路径。如果存在,返回True;如果不存在,则返回False。此功能在os和pathlib模块中均可用,各自的用法如下。#os模块中e...

《文件操作(读写文件)》

一、文件操作基础1.open()函数核心语法file=open("filename.txt",mode="r",encoding="utf-8"...

栋察宇宙(二十一):Python 文件操作全解析

分享乐趣,传播快乐,增长见识,留下美好。亲爱的您,这里是LearingYard学苑!今天小编为大家带来“Python文件操作全解析”欢迎您的访问!Sharethefun,spreadthe...

值得学习练手的70个Python项目(附代码),太实用了

Python丰富的开发生态是它的一大优势,各种第三方库、框架和代码,都是前人造好的“轮子”,能够完成很多操作,让你的开发事半功倍。下面就给大家介绍70个通过Python构建的项目,以此来学习Pytho...

python图形化编程:猜数字的游戏

importrandomnum=random.randint(1,500)running=Truetimes=0##总的次数fromtkinterimport*##导入所有tki...

一文讲清Python Flask的Web编程知识

刚入坑Python做Web开发的新手,还在被配置臃肿、启动繁琐折磨?Flask这轻量级框架最近又火出圈,凭5行代码启动Web服务的极致简洁,让90后程序员小张直呼真香——毕竟他刚用这招把部署时间从半小...

用python 编写一个hello,world

第一种:交互式运行一个hello,world程序:这是写python的第一步,也是学习各类语言的第一步,就是用这种语言写一个hello,world程序.第一步,打开命令行窗口,输入python,第二步...

python编程:如何使用python代码绘制出哪些常见的机器学习图像?

专栏推荐绘图的变量单变量查看单变量最方便的无疑是displot()函数,默认绘制一个直方图,并你核密度估计(KDE)sns.set(color_codes=True)np.random.seed(su...

如何编写快速且更惯用的 Python 代码

Python因其可读性而受到称赞。这使它成为一种很好的第一语言,也是脚本和原型设计的流行选择。在这篇文章中,我们将研究一些可以使您的Python代码更具可读性和惯用性的技术。我不仅仅是pyt...

Python函数式编程的详细分析(代码示例)

本篇文章给大家带来的内容是关于Python函数式编程的详细分析(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。FunctionalProgramming,函数式编程。Py...

编程小白学做题:Python 的经典编程题及详解,附代码和注释(七)

适合Python3+的6道编程练习题(附详解)1.检查字符串是否以指定子串开头题目描述:判断字符串是否以给定子串开头(如"helloworld"以"hello&...

取消回复欢迎 发表评论: