[Python数据采集]超越 Selenium:探索 Playwright 的强大自动化功能
off999 2024-12-16 15:21 13 浏览 0 评论
Playwright 提供了非常灵活且丰富的 API,使得用户可以轻松实现浏览器自动化任务。接下来,我将详细介绍一些 Playwright 中常见的语法和参数,并结合实际的 Python 代码举例说明这些 API 的使用方法和技巧。
1.Browser Launch (启动浏览器)
Playwright 支持启动多种浏览器:Chromium、Firefox 和 WebKit。我们可以通过指定参数来控制浏览器的行为。
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
# 启动 Chromium 浏览器,无头模式(默认值为 True 表示无头模式)
browser = p.chromium.launch(headless=False, slow_mo=50)
# 打开一个新的页面
page = browser.new_page()
page.goto('https://example.com')
# 打印页面标题
print(page.title())
# 关闭浏览器
browser.close()
)
常见参数:
- headless: 控制是否无头模式(即不显示浏览器窗口),默认是 True。
- slow_mo: 设置浏览器动作的延迟,单位为毫秒。可以用于调试时观察自动化操作。
- args: 可以传递启动浏览器时的命令行参数,例如设置代理、窗口大小等。
browser = p.chromium.launch(headless=False, args=['--window-size=1280,720'])
2.New Context (创建新浏览器上下文)
每个浏览器上下文(BrowserContext)是独立的,可以用来隔离不同的会话、Cookie、缓存等信息。
with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
# 创建一个新的浏览器上下文(可以模拟不同的用户会话)
context = browser.new_context(
viewport={'width': 1280, 'height': 720},
locale='en-US',
user_agent="MyCrawler"
)
page = context.new_page()
page.goto('https://example.com')
# 打印用户代理和页面标题
print(page.evaluate("navigator.userAgent"))
print(page.title())
browser.close()
)
常见参数:
- viewport: 设置页面的视口大小,通常用于模拟不同的屏幕分辨率。
- locale: 设置页面语言,模拟用户的语言环境。
- user_agent: 设置自定义的用户代理(User-Agent),通常用于防止反爬虫机制。
- geolocation: 设置地理位置(用于基于位置的内容)。
context = browser.new_context(
geolocation={'longitude': 12.4924, 'latitude': 41.8902}, # 罗马斗兽场的位置
permissions=['geolocation'] # 允许获取地理位置信息
)
3.Page Interaction (页面交互)
Playwright 支持丰富的页面交互操作,包括点击、输入文本、选择下拉框选项、上传文件等。
3.1 点击元素 (page.click)
page.goto('https://example.com/login')
# 点击登录按钮
page.click('button#login')
3.2 输入文本 (page.fill)
# 在登录页面的输入框输入用户名和密码
page.fill('input[name="username"]', 'my_username')
page.fill('input[name="password"]', 'my_password')
3.3 选择下拉框 (page.select_option)
# 选择下拉框中的一个选项
page.select_option('select#country', 'USA')
3.4 文件上传 (page.set_input_files)
# 上传文件
page.set_input_files('input[type="file"]', 'path/to/file.txt')
3.5 模拟键盘输入 (page.keyboard)
# 模拟键盘按下 Enter 键
page.keyboard.press("Enter")
3.6 滚动页面 (page.evaluate)
# 滚动页面到底部
page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
4.Waiting for Elements (等待元素)
Playwright 提供了自动等待元素出现或加载的机制,使得操作更加可靠,减少了手动使用 sleep 的需求。
# 等待按钮出现并点击
page.wait_for_selector('button#submit', state='visible')
page.click('button#submit')
常见的等待方法:
- wait_for_selector: 等待指定选择器的元素出现、可见或被移除。可以通过 state 参数设置等待条件。
- wait_for_load_state: 等待页面的加载状态,可以是 load(完全加载)、domcontentloaded(DOM加载完成)或 networkidle(网络请求空闲)。
# 等待页面完全加载
page.wait_for_load_state('load')
5.Network Interception (网络拦截)
Playwright 允许拦截和修改网络请求和响应,通常用于数据采集时处理反爬虫机制或调试网络请求。
def handle_route(route, request):
# 拦截并修改请求头部
headers = request.headers.copy()
headers['X-My-Custom-Header'] = 'custom_value'
route.continue_(headers=headers)
with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
page = browser.new_page()
# 设置请求拦截
page.route('**/*', handle_route)
page.goto('https://example.com')
browser.close()
6.Screenshots & Video (截图与视频录制)
Playwright 支持对页面或特定元素进行截图,甚至可以录制整个浏览过程的视频,帮助调试和测试。
截图
# 截图整个页面
page.screenshot(path='full_page.png', full_page=True)
# 只截图某个元素
element = page.locator('div#target')
element.screenshot(path='element_screenshot.png')
视频录制
context = browser.new_context(record_video_dir='videos/')
page = context.new_page()
page.goto('https://example.com')
page.screenshot(path='example.png')
# 关闭浏览器上下文后视频将保存到指定目录
context.close()
7.Cookies & Storage (Cookie与存储)
Playwright 可以获取和设置页面的 cookies,以及管理 localStorage 和 sessionStorage。
设置和获取 Cookies
# 设置 Cookie
context.add_cookies([{
'name': 'cookie_name',
'value': 'cookie_value',
'domain': 'example.com',
'path': '/',
}])
# 获取所有 Cookie
cookies = context.cookies()
print(cookies)
管理 LocalStorage
# 使用 `evaluate` 在页面上下文中操作 localStorage
page.evaluate("localStorage.setItem('key', 'value')")
value = page.evaluate("localStorage.getItem('key')")
print(value)
8.Assertions (断言)
Playwright 还内置了一些简单的断言功能,适用于自动化测试。
# 检查页面标题是否包含 "Example Domain"
assert 'Example Domain' in page.title()
# 检查按钮是否可见
assert page.is_visible('button#submit')
9.Handling Dialogs (处理对话框)
在自动化过程中,有时会遇到浏览器弹出的 alert、confirm 或 prompt 对话框,Playwright 提供了处理这些对话框的方法。
page.once("dialog", lambda dialog: dialog.accept())
page.click("button#trigger-alert")
总结
Playwright 提供了非常丰富的 API 和参数,允许用户在浏览器自动化、数据采集、测试等领域灵活应用。从启动浏览器、创建浏览器上下文、操作页面元素,到网络拦截和处理对话框,Playwright 可以帮助我们处理各种复杂的场景。
相关推荐
- Python中的两个内置函数id()和type()
-
id()>>>id(3)2531362761072>>>id(3.222222)2531397393680>>>id(3.0)25313...
- python 函数中,如何将另一个函数作为参数传递
-
python函数中,如何将另一个函数作为参数传递,类似C#委托defadd(a,b):"""这是一个简单的加法函数,接受两个参数并返回它们的和。""...
- Python性能暴涨10倍的终极指南:7个核心技巧+代码压缩秘籍
-
提升Python程序运行性能,使代码运行更流畅更快,以及压缩代码,减小代码大小,下面的方法仅供大家参考,有什么更好的方法在评论区说说。1.使用NumPy/SciPy替代纯Python循环...
- Python 匿名函数(Lambda 函数)详解
-
匿名函数(AnonymousFunction),在Python中称为lambda函数,是一种不需要使用def关键字定义的小型函数。它主要用于简化代码,特别适合需要函数对象的地方。1.基...
- Python学习笔记 | 匿名函数lambda、映射函数map和过滤函数filter
-
什么是匿名函数?定义:没有函数名的自定义函数场景:函数体非常简单,使用次数很少,没有必要声明函数,通常搭配高阶函数使用。高阶函数是能够把函数当成参数进行传递的函数,如:映射函数map和过滤函数fil...
- python练习:自定义函数调用:商品购物实例
-
1、商品录入dict_myshanpin_iof={101:{"商品名称":"毛毛熊","单价":25},102:{"商品名称":...
- Python中如何使用Lambda函数(lambda在python中的用法)
-
Python和其他编程语言一样,都在其语法中添加了lambda函数,Pythonlambda是匿名函数,比常规Python自定义函数有更简洁的语法。虽然Lambda语法在开始时可能会觉得有点混乱,...
- 8-Python内置函数(python内置函数代码)
-
Python提供了丰富的内置函数,这些函数可以直接使用而无需导入任何模块。以下是一些常用的内置函数及其示例:1-print()1-1-说明输出指定的信息到控制台。1-2-例子2-len()2-1-说...
- 用Python进行函数式编程(python函数程序)
-
什么是函数式编程?函数式程序设计是一种编程范例,它把计算当作数学函数的评价,避免状态和可变数据。换句话说,函数编程(FunctionalProgramming,FP)促进没有副作用和不变变量的代码。它...
- python 函数进阶(python如何进阶)
-
1.有名函数和匿名函数#该函数有名称,名称是adddefadd(x,y):returnx+y#改函数没有名称属于匿名函数,也叫lambda表达式lambda_add...
- python自学者的分享:自定义函数、参数作用域、匿名函数、装饰器
-
#自定义新函数函数名newhsdefnewhs(a,b=1):#b的默认值为1,在没有传入b值时,采用默认值,,默认值参数不能放前边returna-bprint(newh...
- Python 函数式编程的 8 大核心技巧,不允许你还不会
-
函数式编程是一种强调使用纯函数、避免共享状态和可变数据的编程范式。Python虽然不是纯函数式语言,但提供了丰富的函数式编程特性。以下是Python函数式编程的8个核心技巧:1.纯函数(...
- 零基础到发布:手把手教你创建并分发 Python 自定义库
-
作为程序员,我们经常依赖各种外部库来解决不同的问题。这些库由技术娴熟的开发者创建,为我们提供了节省时间和精力的解决方案。但你是否曾想过:“我也能创建属于自己的自定义库吗?”答案是肯定的!本文将为你详细...
- 打工人学Python:(七)自定义函数,打造自己的武器库
-
从一个简单的函数开始#!/usr/bin/envpython#-*-encoding:utf-8-*-'''@Purpose:Wordcount@...
- 肖sir_python自定义函数format、zip函数
-
python自定义函数一、常见的自定义函数已经学过的函数:list、print、set、str、type、tuple、dict、range、input等今天学的函数:format二、实战讲解(一)f...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python自定义函数 (53)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)