当前位置：网站首页 > 技术资源 > 正文

[Python数据采集]Playwright爬虫数据采集代码!!值得深入学习

off999 2024-12-16 15:20 31 浏览 0 评论

【Playwright爬虫数据采集代码示例！！值得深入学习代码】

为了提高反爬虫的稳定性，代理池和模拟真实用户行为是常见的优化手段。以下我将给出代理池的实现方式，并结合模拟真实用户行为的代码示例。

1.代理池实现：

通过代理池，可以定期切换IP，避免因同一个IP频繁请求而被封锁。代理池可以是你自己搭建的代理列表，也可以使用第三方的付费代理服务。这里通过 asyncio 实现代理池轮换，并在每次请求时使用不同的代理IP。

2.模拟真实用户行为：

模拟真实用户操作，包括：

更换 User-Agent：每次请求时使用不同的 User-Agent 来模拟不同设备和浏览器。
设置浏览器的 viewport：设置不同的浏览器视口大小，避免所有请求都是相同的屏幕尺寸。
使用 headless=False：使用可见浏览器，以模仿真实用户的行为（在某些情况下依然启用无头模式）。

代码实现：

import asyncio
import random
from playwright.async_api import async_playwright
import aiohttp
 
# 代理池 (可自定义添加更多代理)
proxy_pool = [
    'http://proxy1.example.com:8080',
    'http://proxy2.example.com:8080',
    'http://proxy3.example.com:8080'
]
 
# 随机选择代理
def get_random_proxy():
    return random.choice(proxy_pool)
 
# User-Agent 列表 (模拟不同的设备/浏览器)
user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
    'Mozilla/5.0 (iPhone; CPU iPhone OS 13_6_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.2 Mobile/15E148 Safari/604.1',
    'Mozilla/5.0 (Linux; Android 10; SM-G975F) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Mobile Safari/537.36'
]
 
# 随机选择 User-Agent
def get_random_user_agent():
    return random.choice(user_agents)
 
# 模拟用户行为：随机滚动页面，点击某些元素
async def simulate_human_behavior(page):
    await asyncio.sleep(random.uniform(1, 3))  # 模拟随机的延迟
    await page.mouse.wheel(0, random.randint(300, 1000))  # 模拟滚动
    await asyncio.sleep(random.uniform(1, 2))  # 再次延迟
    # 可以添加其他的操作，例如点击某个随机元素
 
# 异步下载图片
async def download_image(image_url, reg_number):
    if image_url:
        img_name = f"{reg_number}.jpg"
        async with aiohttp.ClientSession() as session:
            async with session.get(image_url) as response:
                if response.status == 200:
                    content = await response.read()
                    with open(f'images/{img_name}', 'wb') as f:
                        f.write(content)
 
# 异步抓取图片 URL
async def fetch_image_url(browser, reg_number, proxy=None):
    #示例网址
    url = f'https://example.com/channel/search#/search?q={{"keyword":"{reg_number}"}}'
    
    # 启动浏览器页面并配置代理和 User-Agent
    context = await browser.new_context(
        viewport={"width": random.randint(1024, 1920), "height": random.randint(768, 1080)},
        user_agent=get_random_user_agent()
    )
 
    if proxy:
        context = await browser.new_context(
            proxy={"server": proxy},
            user_agent=get_random_user_agent(),
            viewport={"width": random.randint(1024, 1920), "height": random.randint(768, 1080)}
        )
 
    page = await context.new_page()
 
    try:
        # 模拟用户行为
        await page.goto(url)
        await simulate_human_behavior(page)
 
        # 执行搜索操作
        await page.click("//button[text()='搜索']")
        
        # 等待图片加载完成
        await page.wait_for_selector('div.trademark-img-big img', timeout=60000)
        image_url = await page.locator('div.trademark-img-big img').get_attribute('src')
 
        return image_url
    except Exception as e:
        print(f"Error fetching image for {reg_number}: {e}")
        return None
    finally:
        await page.close()
 
# 主函数
async def main():
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=False)  # 模拟真实用户行为，使用非无头模式
        registration_numbers = ["123456789", "987654321", "456789123"]  # 示例注册号
        
        tasks = []
        for reg_number in registration_numbers:
            proxy = get_random_proxy()  # 从代理池中随机获取代理
            task = fetch_image_url(browser, reg_number, proxy=proxy)
            tasks.append(task)
 
        # 执行所有任务并收集结果
        results = await asyncio.gather(*tasks)
 
        for reg_number, image_url in zip(registration_numbers, results):
            if image_url:
                await download_image(image_url, reg_number)
 
        await browser.close()
 
if __name__ == "__main__":
    asyncio.run(main())
asyncio.run(main())

关键点解释：

代理池 proxy_pool：通过 get_random_proxy() 随机选择代理。此代理池可以包含多个代理服务器的地址，确保每次请求时使用不同的IP地址，减少反爬的风险。
随机 User-Agent：通过 get_random_user_agent() 函数，随机选择不同的 User-Agent，模拟不同的设备和浏览器请求，避免所有请求都来自同一个浏览器和设备标识。
页面模拟真实用户行为：simulate_human_behavior(page) 模拟了用户滚动页面、延迟等行为，使爬虫行为更像真实用户。可以根据需求进一步扩展，加入点击、输入等行为。
异步图片下载：在 download_image() 函数中，通过 aiohttp 异步下载图片到本地。
代理设置：在创建浏览器上下文时（browser.new_context()），通过 proxy={"server": proxy} 设置代理服务器。每个上下文使用不同的代理和 User-Agent，模拟多样化的请求来源。
浏览器视口大小：使用随机的浏览器窗口大小（viewport），增加请求的多样性。