Python - 爬虫之Selenium(selenium python3)
off999 2024-09-18 22:38 16 浏览 0 评论
一、Selenium 的介绍
Selenium 是一个 Web 自动化测试工具,最初是为网站自动化测试而开发,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。
1、Selenium 启动 Chrome
在下载好 chromedriver 以及安装好 selenium 模块后,执行下列代码:
from selenium import webdriver
# 如果driver没有添加到环境变量,则需要将driver的绝对路径赋值给executable_path参数
# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
# 如果driver添加了环境变量,则不需要设置executable_path
driver = webdriver.Chrome()
# 向一个url发起请求
driver.get('https://www.baidu.com')
# 把网页保存为图片,69版本以上的谷歌浏览器将无法使用截图功能
driver.save_screenshot("screenshot.png")
print(driver.title) # 打印页面标题
# 退出模拟浏览器
driver.quit() # 一定要退出!不退出会有残留进程!
2、Selenium 启动 PhantomJS
PhantomJS 是一个基于 Webkit 的"无界面"(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript。下载地址:https://phantomjs.org/download
from selenium import webdriver
driver = webdriver.PhantomJS()
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')
# 向一个url发起请求
driver.get('https://www.baidu.com')
# 把网页保存为图片
driver.save_screenshot('screenshot.png')
# 退出模拟浏览器
driver.quit() # 一定要退出!不退出会有残留进程!
无头浏览器与有头浏览器的使用场景
- 通常开发过程中需要查看运行过程中的各种情况所以通常使用有头浏览器
- 在项目完成进行部署的时候,通常平台采用的系统都是服务器版的操作系统,服务器版的操作系统必须使用无头浏览器才能正常运行
3、Selenium 的工作原理
利用浏览器原生 API,封装成一套更加面向对象的 Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏、窗口大小、启动、关闭、安装插件、配置证书...)
- webdriver 本质是一个 web-server,对外提供 webapi,其中封装了浏览器的各种功能
- 不同的浏览器使用各自不同的 webdriver(由浏览器厂商提供)
二、Selenium 安装及简单使用
1、安装 selenium
pip/pip3 install selenium
pip/pip3 install selenium==版本号
2、安装 driver
以 Chrome 浏览器为例:
- 查看浏览器版本号
- 方式一:帮助 --> 关于 Google Chrome
- 方式二:输入栏访问 chrome://settings/help
- 下载对应版本的驱动
- 驱动镜像站 https://npm.taobao.org/mirrors/chromedriver/
- 下载解压后得到 chromedriver
- 配置环境变量【可选】
- 右击此电脑 -> 属性 --> 高级系统设置 --> 环境变量
- 把 chromedriver 所在目录,追加到 Path 变量下即可
- 执行 echo $PATH 查看已经配置的环境变量路径
- 选择其中一个目录(比如:/usr/local/bin),把 chromedriver 拷贝过去即可
- Mac/Linux:
- 执行 echo $PATH 查看已经配置的环境变量路径
- 选择其中一个目录(比如:/usr/local/bin),把 chromedriver 拷贝过去即可
- Windows:
- 右击此电脑 -> 属性 --> 高级系统设置 --> 环境变量
- 把 chromedriver 所在目录,追加到 Path 变量下即可
注意:不同版本浏览器对应的 driver 是不一样的,尽量使用与浏览器版本号一致的 driver(一般大版本号一致是可以兼容的,例如 浏览器 91.0.4472.124,驱动 91.0.4472.19)。否则会报错,比如:This version of ChromeDriver only supports Chrome version 92 Current browser version is 91.0.4472.124
3、Selenium 的简单使用
使用 Selenium 启动 Chrome 浏览器,打开百度网页,在搜索框中输入文字后,点击搜索按钮:
import time
from selenium import webdriver
# chromedriver已经添加到环境变量
# driver = webdriver.Chrome()
# 通过指定chromedriver的路径来实例化driver对象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
# 控制浏览器访问url地址
driver.get('https://www.baidu.com')
# 在百度搜索框中搜索 'python'
driver.find_element_by_id('kw').send_keys('python')
# 点击 "百度搜索"
driver.find_element_by_id('su').click()
time.sleep(6)
# 退出浏览器
driver.quit()
- webdriver.Chrome(executable_path='./chromedriver') 中 executable 参数指定的是下载好的 chromedriver 文件路径
- driver.find_element_by_id('kw').send_keys('python') 定位 id 属性值是 'kw' 的标签,并向其中输入字符串 'python'
- driver.find_element_by_id('su').click() 定位 id 属性值是 'su' 的标签,并点击
- click 函数作用:触发标签的 js 的 click 事件
三、Selenium 提取数据
1、driver 对象的常用属性和方法
- driver.page_source:当前标签页浏览器渲染之后的网页源代码
- driver.current_url:当前标签页的 url(可能是重写向后的 url)
- driver.close():关闭当前标签页,如果只有一个标签页则关闭整个浏览器
- driver.quit():关闭浏览器
- driver.forward():页面前进
- driver.back():页面后退
- driver.screen_shot(img_name):页面截图
举例:
from selenium import webdriver
import time
# 创建一个浏览器对象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
# 访问指定的url地址
driver.get('http://www.baidu.com')
# 显示源码
print(driver.page_source)
# 显示响应对应的url
print(driver.current_url) # https://www.baidu.com/
# 标签页标题
print(driver.title) # 百度一下,你就知道
time.sleep(2)
driver.get('http://www.douban.com')
time.sleep(2)
driver.back()
time.sleep(2)
driver.forward()
# 保存网页快照,常用于验证是否运行或者验证码截图
driver.save_screenshot('douban.png')
time.sleep(2)
# 关闭标签页
# driver.close()
# 关闭浏览器
driver.quit()
2、driver 对象定位标签元素获取标签对象的方法
- find_element_by_id:返回一个元素
- find_element(s)_by_class_name:根据类名获取元素列表
- find_element(s)_by_name:根据标签的 name 属性值返回包含标签对象元素的列表
- find_element(s)_by_xpath:返回一 列表
- find_element(s)_by_link_text:根据链接文本获取元素列表
- find_element(s)_by_partial_link_text:根据部分链接文本获取元素列表
- find_element(s)_by_tag_name:根据标签名获取元素列表
- find_element(s)_by_css_selector:根据 css 选择器来获取元素列表
注意:
- find_element 和 find_elements 的区别:
- find_element 返回匹配的第一个标签对象,匹配不到就抛出异常
- find_elements 返回标签对象列表,匹配不到就返回空列表
- by_link_text 和 by_partial_link_text 的区别:
- by_link_text:匹配全部文本
- by_partial_link_text:匹配包含某个文本
举例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('http://www.baidu.com')
# 根据xpath进行元素定位
# driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python3')
# 根据css选择器进行元素定位
# driver.find_element_by_css_selector('#kw').send_keys('python3')
# 根据name属性值进行元素定位
# driver.find_element_by_name('wd').send_keys('python3')
# 根据class属性值进行元素定位
# driver.find_element_by_class_name('s_ipt').send_keys('python3')
# 根据id属性值进行元素定位
# driver.find_element_by_id('su').click()
# 根据链接文本进行元素定位
# driver.find_element_by_link_text('hao123').click()
# 根据部分链接文本进行元素定位
# driver.find_element_by_partial_link_text('hao').click()
# 根据标签名进行元素定位
# 限制:目标元素在当前html中是唯一标签的时候或者是众多定位出来的标签中的第一个的时候才能使用
driver.find_element_by_tag_name('title')
3、标签对象提取文本内容和属性值
find_element 只能获取元素,不能直接获取其中的数据,如果需要获取数据需要使用以下方法:
- element.text:通过定位获取的标签对象的 text 属性,获取文本内容
- element.get_attribute("属性名"):通过定位获取的标签对象的 get_attribute 函数,传入属性名,来获取标签属性值
举例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('https://sz.58.com/chuzu/')
el_list = driver.find_elements_by_xpath('//li[@class="house-cell realverify"]//a[@class="strongbox"]')
for el in el_list:
print(el.text, el.get_attribute('href'))
# el.click() # el必须是可点击的,否则会报错
# el.send_keys(data) # el必须是 text input 这类可输入的标签
# el.clear() # 对输入框做清空操作
四、Selenium 的其它使用方法
1、标签页切换
当 selenium 控制浏览器打开多个标签时,就需要进行标签页切换了,操作步骤如下:
- 获取所有标签页的窗口句柄
- 利用窗口句柄切换到句柄指向的标签页
窗口句柄:指向标签页对象的标识
方法:
# 1. 获取当前所有的标签页的句柄构成的列表
current_windows = driver.window_handles
# 2. 根据标签页句柄列表索引下标进行切换
driver.switch_to.window(current_window[0])
举例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('https://jn.58.com/')
print(driver.current_url) # https://jn.58.com/
print(driver.window_handles) # ['CDwindow-C612EA61989BAA']
# 定位到“租房”a标签
el = driver.find_element_by_xpath('//span[@class="contentAdTilRt"]/a[text()="租房"]')
el.click()
print(driver.window_handles) # ['CDwindow-C612EA61989BAA', 'CDwindow-45CEE57C52AAB2FE']
# 切换到最新的标签页面
driver.switch_to.window(driver.window_handles[-1])
print(driver.current_url) # https://jn.58.com/chuzu/
2、switch_to 切换 frame 标签
iframe 是 html 中常用的一种技术 ,即一个页面中嵌套了另一个网页,selenium 默认是访问不了 frame 中的内容的,需要使用代码切换到指定的 frame 中再进行后续的操作。
方法:
# 可以传入frame标签的id
driver.switch_to.frame(frame_id)
# 当id无法获取到时,也可以传入(通过xpath等方式)定位到的frame标签对象
driver.switch_to.frame(frame_element)
举例:
from selenium import webdriver
qq_username = ''
qq_password = ''
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('https://qzone.qq.com/')
# 切换到账号登录iframe
driver.switch_to.frame('login_frame') # <iframe id="login_frame" ...></iframe>
# driver.switch_to.frame(driver.find_element_by_id('login_frame'))
# 点击 账号密码登录
driver.find_element_by_id("switcher_plogin").click()
# 输入账号密码
driver.find_element_by_id('u').send_keys(qq_username)
driver.find_element_by_id('p').send_keys(qq_password)
# 点击登录
driver.find_element_by_id('login_button').click()
3、cookie 操作
1)获取 cookie
driver.get_cookies() 返回列表,其中包含了完整的 cookie 信息,即不光有 name、value,还有 domain 等其他维度的信息,所以如果想把获取的 cookie 信息和 requests 模块配合使用的话,需要转换为 name、value 作为键值对的 cookie 字典。
举例:
# 获取当前标签页的全部cookie信息
print(driver.get_cookies())
# 将cookie信息转可用于requests使用的cookie字典
cookies_dict = {data['name']: data['value'] for data in driver.get_cookies()}
2)删除 cookie
# 删除一条cookie
driver.delete_cookie('CookieName')
# 删除所有的cookie
driver.delete_all_cookies()
4、控制浏览器执行 js 代码
selenium 可以让浏览器执行我们规定的 js 代码,比如,页面向下滚动等等。
方法:
driver.execute_script(js_script)
举例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('https://sz.lianjia.com/')
# js代码:向下滚动500像素
js_script = 'scrollTo(0, 500)'
driver.execute_script(js_script)
# 点击Android App下载按钮(默认位置超过屏幕高度,不在视野中)
el_apk = driver.find_element_by_xpath('//div[@class="hand-app"]/a[@class="android"]')
el_apk.click()
注意:如果 Selenium 点击了不在视野内的元素会报错,所以需要等将页面滚动的元素可见。
5、页面等待【了解】
1)强制等待(常用)
强制等待很简单,直接使用 time 模块即可。
方法:
import time
time.sleep()
这种方式的缺点是不智能,设置的时间太短,元素可能还没有加载出来;设置的时间太长,则会浪费时间。
2)隐式等待(常用)
隐式等待针对的是元素定位,隐式等待设置了一个时间,在一段时间内判断元素是否定位成功,如果成功,就进行下一步(可能提前,节省时间),如果在设置的时间内没有定位成功,则会报超时异常。
方法:
driver.implicitly_wait(timeout)
注意:timeout 的单位是秒
举例:
from selenium import webdriver
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
# 在这段设置代码之后,所有的元素定位操作都有最大等待时间10s,在10s内会定期进行元素定位,超过设置时间之后将会报错
driver.implicitly_wait(10)
driver.get('http://www.baidu.com')
# 定位一个不存在的元素
el = driver.find_element_by_xpath('//*[@id="lg"]/img[10000]')
print(el)
3)显示等待(不常用)
每经过多少秒就查看一次等待条件是否达成,如果达成就停止等待,继续执行后续代码;如果没有达成就继续等待,直到超过规定的时间,报超时异常。
区别:
- 隐式等待:针对之后 所有 的元素定位
- 显示等待:针对 指定 的元素定位
举例:
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')
driver.get('http://www.baidu.com')
# 每0.5秒一次检查,通过链接文本内容定位标签是否存在,如果存在就向下继续执行;如果不存在,直到20秒上限就抛超时异常
WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located((By.LINK_TEXT, '好123')))
print(driver.find_element_by_link_text('好123').get_attribute('href'))
driver.quit()
- 参数 20 表示最长等待 20 秒
- 参数 0.5 表示 0.5 秒检查一次规定的标签是否存在
- presence_of_element_located((By.LINK_TEXT, '好123')) 表示通过链接文本内容定位标签
6、开启无界面模式
绝大多数服务器是没有界面的,所有需要使用 selenium 无头浏览器,有 2 种方式:
- PhantomJS:本身就是无界面浏览器,但可能会被识别网站开发者反识别出来。(不推荐)
- Chrome:新版 Chrome 支持无界面模式了,不过需要多一些配置。(推荐)
注意:MacOS 中 chrome 浏览器 59+版本,Linux 中 57+版本才能使用无界面模式。
方法:
# 创建配置对象
options = webdriver.ChromeOptions()
# 配置对象添加开启无界面模式的命令
options.add_argument('--headless')
# 配置对象添加禁用gpu的命令
options.add_argument('--disable-gpu')
# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)
7、使用代理 ip
selenium 控制浏览器也是可以使用代理 ip 的。
方法:
# 创建配置对象
options = webdriver.ChromeOptions()
# 配置代理ip
options.add_argument('--proxy-server=http://150.138.253.70:808')
# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)
注意:更换 ip 代理,必须重新启动浏览器。
8、替换 user-agent
selenium 控制谷歌浏览器时,User-Agent 默认是谷歌浏览器的,有时候我们可能需要对 User-Agent 进行替换,新版 Chrome 也支持配置 User-Agent。
方法:
# 创建配置对象
options = webdriver.ChromeOptions()
# 更换User-Agent
options.add_argument('--user-agent=Opera/9.23 (X11; Linux x86_64; U; en)')
# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)
安利:在线查看 User-Agent 小工具 http://service.spiritsoft.cn/ua.html
相关推荐
- python gui编程框架推荐以及介绍(python gui开发)
-
Python的GUI编程框架有很多,这里为您推荐几个常用且功能强大的框架:Tkinter:Tkinter是Python的标准GUI库,它是Python内置的模块,无需额外安装。它使用简单,功能较为基础...
- python自动化框架学习-pyautogui(python接口自动化框架)
-
一、适用平台:PC(windows和mac均可用)二、下载安装:推荐使用命令行下载(因为会自动安装依赖库):pipinstallPyAutoGUI1该框架的依赖库还是蛮多的,第一次用的同学耐心等...
- Python 失宠!Hugging Face 用 Rust 新写了一个 ML框架,现已低调开源
-
大数据文摘受权转载自AI前线整理|褚杏娟近期,HuggingFace低调开源了一个重磅ML框架:Candle。Candle一改机器学习惯用Python的做法,而是Rust编写,重...
- Flask轻量级框架 web开发原来可以这么可爱呀~(建议收藏)
-
Flask轻量级框架web开发原来可以这么可爱呀大家好呀~今天让我们一起来学习一个超级可爱又实用的PythonWeb框架——Flask!作为一个轻量级的Web框架,Flask就像是一个小巧精致的工...
- Python3使用diagrams生成架构图(python架构设计)
-
目录技术背景diagrams的安装基础逻辑关系图组件簇的定义总结概要参考链接技术背景对于一个架构师或者任何一个软件工程师而言,绘制架构图都是一个比较值得学习的技能。这就像我们学习的时候整理的一些Xmi...
- 几个高性能Python网络框架,高效实现网络应用
-
Python作为一种广泛使用的编程语言,其简洁易读的语法和强大的生态系统,使得它在Web开发领域占据重要位置。高性能的网络框架是构建高效网络应用的关键因素之一。本文将介绍几个高性能的Python网络框...
- Web开发人员的十佳Python框架(python最好的web框架)
-
Python是一种面向对象、解释型计算机程序设计语言。除了语言本身的设计目的之外,Python的标准库也是值得大家称赞的,同时Python还自带服务器。其它方面,Python拥有足够多的免费数据函数库...
- Diagram as Code:用python代码生成架构图
-
工作中常需要画系统架构图,通常的方法是通过visio、processon、draw.io之类的软件,但是今天介绍的这个软件Diagrams,可以通过写Python代码完成架构图绘制,确实很co...
- 分享一个2022年火遍全网的Python框架
-
作者:俊欣来源:关于数据分析与可视化最近Python圈子当中出来一个非常火爆的框架PyScript,该框架可以在浏览器中运行Python程序,只需要在HTML程序中添加一些Python代码即可实现。该...
- 10个用于Web开发的最好 Python 框架
-
Python是一门动态、面向对象语言。其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性。除了语言本身的设计目的之外,Python标准库也是值得大家称赞的,Python甚至还...
- 使用 Python 将 Google 表格变成您自己的数据库
-
图片来自Shutterstock,获得FrankAndrade的许可您知道Google表格可以用作轻量级数据库吗?GoogleSheets是一个基于云的电子表格应用程序,可以像大多数数据库管...
- 牛掰!用Python处理Excel的14个常用操作总结!
-
自从学了Python后就逼迫用Python来处理Excel,所有操作用Python实现。目的是巩固Python,与增强数据处理能力。这也是我写这篇文章的初衷。废话不说了,直接进入正题。数据是网上找到的...
- 将python打包成exe的方式(将python文件打包成exe可运行文件)
-
客户端应用程序往往需要运行Python脚本,这对于那些不熟悉Python语言的用户来说可能会带来一定的困扰。幸运的是,Python拥有一些第三方模块,可以将这些脚本转换成可执行的.exe...
- 对比Excel学Python第1练:既有Excel,何用Python?
-
背景之前发的文章开头都是“Python数据分析……”,使得很多伙伴以为我是专门分享Python的,但我的本意并非如此,我的重点还是会放到“数据分析”上,毕竟,Python只是一种工具而已。现在网上可以...
- 高效办公:Python处理excel文件,摆脱无效办公
-
一、Python处理excel文件1.两个头文件importxlrdimportxlwt其中xlrd模块实现对excel文件内容读取,xlwt模块实现对excel文件的写入。2.读取exce...
你 发表评论:
欢迎- 一周热门
-
-
python 3.8调用dll - Could not find module 错误的解决方法
-
加密Python源码方案 PyArmor(python项目源码加密)
-
Python3.8如何安装Numpy(python3.6安装numpy)
-
大学生机械制图搜题软件?7个受欢迎的搜题分享了
-
编写一个自动生成双色球号码的 Python 小脚本
-
免费男女身高在线计算器,身高计算公式
-
将python文件打包成exe程序,复制到每台电脑都可以运行
-
Python学习入门教程,字符串函数扩充详解
-
Python数据分析实战-使用replace方法模糊匹配替换某列的值
-
Python进度条显示方案(python2 进度条)
-
- 最近发表
-
- python gui编程框架推荐以及介绍(python gui开发)
- python自动化框架学习-pyautogui(python接口自动化框架)
- Python 失宠!Hugging Face 用 Rust 新写了一个 ML框架,现已低调开源
- Flask轻量级框架 web开发原来可以这么可爱呀~(建议收藏)
- Python3使用diagrams生成架构图(python架构设计)
- 几个高性能Python网络框架,高效实现网络应用
- Web开发人员的十佳Python框架(python最好的web框架)
- Diagram as Code:用python代码生成架构图
- 分享一个2022年火遍全网的Python框架
- 10个用于Web开发的最好 Python 框架
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)