[Python数据采集]Playwright爬虫数据采集代码!!值得深入学习
off999 2024-12-16 15:20 11 浏览 0 评论
【Playwright爬虫数据采集代码示例!!值得深入学习代码】
为了提高反爬虫的稳定性,代理池和模拟真实用户行为是常见的优化手段。以下我将给出代理池的实现方式,并结合模拟真实用户行为的代码示例。
1.代理池实现:
通过代理池,可以定期切换IP,避免因同一个IP频繁请求而被封锁。代理池可以是你自己搭建的代理列表,也可以使用第三方的付费代理服务。这里通过 asyncio 实现代理池轮换,并在每次请求时使用不同的代理IP。
2.模拟真实用户行为:
模拟真实用户操作,包括:
- 更换 User-Agent:每次请求时使用不同的 User-Agent 来模拟不同设备和浏览器。
- 设置浏览器的 viewport:设置不同的浏览器视口大小,避免所有请求都是相同的屏幕尺寸。
- 使用 headless=False:使用可见浏览器,以模仿真实用户的行为(在某些情况下依然启用无头模式)。
代码实现:
import asyncio
import random
from playwright.async_api import async_playwright
import aiohttp
# 代理池 (可自定义添加更多代理)
proxy_pool = [
'http://proxy1.example.com:8080',
'http://proxy2.example.com:8080',
'http://proxy3.example.com:8080'
]
# 随机选择代理
def get_random_proxy():
return random.choice(proxy_pool)
# User-Agent 列表 (模拟不同的设备/浏览器)
user_agents = [
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
'Mozilla/5.0 (iPhone; CPU iPhone OS 13_6_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.2 Mobile/15E148 Safari/604.1',
'Mozilla/5.0 (Linux; Android 10; SM-G975F) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Mobile Safari/537.36'
]
# 随机选择 User-Agent
def get_random_user_agent():
return random.choice(user_agents)
# 模拟用户行为:随机滚动页面,点击某些元素
async def simulate_human_behavior(page):
await asyncio.sleep(random.uniform(1, 3)) # 模拟随机的延迟
await page.mouse.wheel(0, random.randint(300, 1000)) # 模拟滚动
await asyncio.sleep(random.uniform(1, 2)) # 再次延迟
# 可以添加其他的操作,例如点击某个随机元素
# 异步下载图片
async def download_image(image_url, reg_number):
if image_url:
img_name = f"{reg_number}.jpg"
async with aiohttp.ClientSession() as session:
async with session.get(image_url) as response:
if response.status == 200:
content = await response.read()
with open(f'images/{img_name}', 'wb') as f:
f.write(content)
# 异步抓取图片 URL
async def fetch_image_url(browser, reg_number, proxy=None):
#示例网址
url = f'https://example.com/channel/search#/search?q={{"keyword":"{reg_number}"}}'
# 启动浏览器页面并配置代理和 User-Agent
context = await browser.new_context(
viewport={"width": random.randint(1024, 1920), "height": random.randint(768, 1080)},
user_agent=get_random_user_agent()
)
if proxy:
context = await browser.new_context(
proxy={"server": proxy},
user_agent=get_random_user_agent(),
viewport={"width": random.randint(1024, 1920), "height": random.randint(768, 1080)}
)
page = await context.new_page()
try:
# 模拟用户行为
await page.goto(url)
await simulate_human_behavior(page)
# 执行搜索操作
await page.click("//button[text()='搜索']")
# 等待图片加载完成
await page.wait_for_selector('div.trademark-img-big img', timeout=60000)
image_url = await page.locator('div.trademark-img-big img').get_attribute('src')
return image_url
except Exception as e:
print(f"Error fetching image for {reg_number}: {e}")
return None
finally:
await page.close()
# 主函数
async def main():
async with async_playwright() as p:
browser = await p.chromium.launch(headless=False) # 模拟真实用户行为,使用非无头模式
registration_numbers = ["123456789", "987654321", "456789123"] # 示例注册号
tasks = []
for reg_number in registration_numbers:
proxy = get_random_proxy() # 从代理池中随机获取代理
task = fetch_image_url(browser, reg_number, proxy=proxy)
tasks.append(task)
# 执行所有任务并收集结果
results = await asyncio.gather(*tasks)
for reg_number, image_url in zip(registration_numbers, results):
if image_url:
await download_image(image_url, reg_number)
await browser.close()
if __name__ == "__main__":
asyncio.run(main())
asyncio.run(main())
关键点解释:
- 代理池 proxy_pool:通过 get_random_proxy() 随机选择代理。此代理池可以包含多个代理服务器的地址,确保每次请求时使用不同的IP地址,减少反爬的风险。
- 随机 User-Agent:通过 get_random_user_agent() 函数,随机选择不同的 User-Agent,模拟不同的设备和浏览器请求,避免所有请求都来自同一个浏览器和设备标识。
- 页面模拟真实用户行为:simulate_human_behavior(page) 模拟了用户滚动页面、延迟等行为,使爬虫行为更像真实用户。可以根据需求进一步扩展,加入点击、输入等行为。
- 异步图片下载:在 download_image() 函数中,通过 aiohttp 异步下载图片到本地。
- 代理设置:在创建浏览器上下文时(browser.new_context()),通过 proxy={"server": proxy} 设置代理服务器。每个上下文使用不同的代理和 User-Agent,模拟多样化的请求来源。
- 浏览器视口大小:使用随机的浏览器窗口大小(viewport),增加请求的多样性。
代理池改进建议:
- 可以通过第三方代理提供商(如 Bright Data、Oxylabs、SmartProxy)获取大量高匿名代理,保证 IP 地址质量和访问速度。
- 代理池的管理可以进一步优化,例如动态添加和移除不可用的代理,或者使用带有验证的代理(带用户名和密码的代理)。
模拟行为改进建议:
- 增加更多的用户操作,如随机点击页面中的链接、模拟表单输入等。
- 利用 Playwright 的 mouse 和 keyboard 功能模拟更多人类行为,如键盘输入。
相关推荐
- 独家 | 5 个Python高级特性让你在不知不觉中成为Python高手
-
你已经使用Python编程了一段时间,编写脚本并解决各种问题。是你的水平出色吗?你可能只是在不知不觉中利用了Python的高级特性。从闭包(closure)到上下文管理器(contextmana...
- Python装饰器
-
Python装饰器是一种用于修改函数或类的行为的特殊语法。它们允许在不修改原始代码的情况下,通过将函数或类作为参数传递给另一个函数来添加额外的功能。装饰器本质上是一个函数,它接受一个函数作为参数,并返...
- 中高阶Python常规用法--上下文管理器
-
Python以简单性和通用性著称,是一种深受全球开发人员喜爱的编程语言。它提供了大量的特性和功能,使编码成为一种愉快的体验。在这些功能中,一个经常被新手忽视的强大工具是上下文管理器。上下文管理器是高...
- Python小案例67- 装饰器
-
Python装饰器是一种用于修改函数或类的行为的特殊语法。它们允许在不修改原始代码的情况下,通过将函数或类作为参数传递给另一个函数来添加额外的功能。装饰器本质上是一个函数,它接受一个函数作为参数,并返...
- python常用的语法糖
-
概念Python的语法糖(SyntacticSugar)是指那些让代码更简洁、更易读的语法特性,它们本质上并不会增加新功能,但能让开发者更高效地编写代码。推导式写法推导式是Python最经典的...
- python - 常用的装饰器 decorator 有哪些?
-
python编程中使用装饰器(decorator)工具,可以使代码更简洁清晰,提高代码的重用性,还可以为代码维护提供方便。对于python初学者来说,根据装饰器(decorator)的字面意思并不...
- python数据缓存怎么搞 ?推荐一个三方包供你参考,非常简单好用。
-
1.数据缓存说明数据缓存可以说也是项目开发中比不可少的一个工具,像我们测试的系统中,你都会见到像Redis一样的数据缓存库。使用缓存数据库的好处不言而喻,那就是效率高,简单数据直接放在缓存中...
- 用于时间序列数据的Graphite监视工具
-
结合第三方工具,Graphite为IT性能监控提供了许多好处。本文介绍其核心组件,包括Carbon、Whisper以及安装的基本准则。Graphite监视工具可实时或按需,大规模地绘制来自多个来源的时...
- Python3+pygame实现的坦克大战
-
一、显示效果二、代码1.说明几乎所有pygame游戏,基本都遵循一定的开发流程,大体如下:初始化pygame创建窗口while循环检测以及处理事件(鼠标点击、按键等)更新UI界面2.代码创建一个m...
- Python之鸭子类型:一次搞懂with与上下文装饰器
-
引言在鸭子类型的理念的基础之上,从关注类型,转变到关注特性和行为。结合Python中的魔法函数的体系,我们可以将自定义的类型,像内置类型一样被使用。今天这篇文章中,接着该话题,继续聊一下with语法块...
- Python必会的50个代码操作
-
学习Python时,掌握一些常用的程序操作非常重要。以下是50个Python必会的程序操作,主要包括基础语法、数据结构、函数和文件操作等。1.HelloWorldprint("Hello,...
- 一文掌握Python 中的同步和异步
-
同步代码(Sync)同步就像在一个流水线上工作,每个任务都等待前一个任务完成。示例:机器A切割钢板→完成后,机器B钻孔→完成后,机器C上色。在Python中,同步代码看起来像这样:im...
- python 标注模块timeit: 测试函数的运行时间
-
在Python中,可以使用内置的timeit模块来测试函数的运行时间。timeit模块提供了一个简单的接口来测量小段代码的执行时间。以下是使用timeit测试函数运行时间的一般步骤:导入...
- Python带你找回童年的万花尺
-
还记得小时候的万花尺吧?这么画:一点也不费脑筋,就可以出来这么多丰富多彩的复杂几何图形。具体而言,可以用万花尺玩具(如图2-1所示)来绘制数学曲线。这种玩具由两个不同尺寸的塑料齿轮组成,一大一小。小的...
- Python 时间模块深度解析:从基础到高级的全面指南
-
直接上干货一、时间模块核心类介绍序号类名说明1datetime.datetime表示一个具体的日期和时间,结合了日期和时间的信息。2datetime.date表示一个具体的日期。3datetime.t...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)