百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

神器!使用Python 轻松识别验证码(python自动化如何获取验证码)

off999 2024-10-23 12:51 28 浏览 0 评论

前言

在我们进行自动化测试的过程中,免不了要在登录时遇到验证码,很多时候我们都是只能找开发要万能验证码或者暂时关闭验证码这个功能,但是有时候我们必须要验证码是否能够正常生成,所以在这个时候,我们需要做的就是输入验证码,但是验证码这个东西是随机生成的,不是每一次都一样,所以我们还是需要识别然后输入,脚本是没有眼睛的,只能通过代码来进行识别,所以本文就来给大家介绍一下如何使用Python来轻松识别数字验证码。

安装Python库和软件环境

验证码识别需要用到一些Python库和软件环境,下面将介绍它们的安装步骤。

  1. 安装Tesseract OCR

它是一个开源的光学字符识别引擎,用于识别验证码中的文本内容,能够识别70多种语言的文本,并为开发者提供简单易用的API。可以通过以下链接下载和安装:https://github.com/tesseract-ocr/tesseract 。在Windows系统下可以下载exe文件进行安装。

注:Tesseract安装完成后需要将tesseract.exe文件路径加入系统的环境变量,否则无法在Python脚本中调用。

  1. 所需Python库

验证码识别需要使用的Python库包括:pillow(PIL)pytesseractopencv-python。pillow为Python自带的标准库,其它库可以使用pip命令自动安装:

pythonpip install pytesseract
pip install opencv-python

识别简单的数字验证码

  1. 准备验证码图片

首先,我们需要准备一些验证码图片。可以在网络上搜索验证码图片进行下载,或者使用Python的爬虫程序去爬取目标网站的验证码。这里我们先手动下载一个简单的数字验证码图片,保存为“test.jpg”。

  1. 加载验证码图片

我们可以使用Pillow库(Python Imaging Library)加载验证码图片。Pillow库可以读取和处理不同类别的图片格式,如jpg、png、bmp等等。代码如下:

pythonfrom PIL import Image
img = Image.open('test.jpg')
img.show()
  1. 识别验证码

使用pytesseract库,我们可以很容易地把图片中的数字识别出来。pytesseract库依赖于Tesseract OCR引擎,能够处理各种难度的验证码,如数字、字母、汉字、倾斜、变形等等。代码如下:

pythonimport pytesseract
text = pytesseract.image_to_string(Image.open('test.jpg'), lang='eng')
print(text)

这段代码的意思是用pytesseract库将图片中的字符串转换为字符。lang参数可以指定识别的语言类型,这里我们使用了eng,表示英文。如果验证码是汉字,设置为chi_sim即可。

识别数字字母混合的验证码

当验证码中既包含数字又包含字母时,需要对识别的方法进行修改,下面介绍一种简单的处理方法,即通过二值化和降噪处理来增加识别率。

二值化处理

二值化处理就是将图片中的所有像素转换为黑白两种颜色。对于验证码图片,我们可以将其转换为黑白灰度图像,便于后续的处理。代码如下:

pythonimport cv2
img = cv2.imread('test.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
retval, threshold = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
cv2.imshow('Image', threshold)
cv2.waitKey(0)
cv2.destroyAllWindows()

这段代码用OpenCV库将图片读取为灰度图像,并进行二值化处理。其中,127是阈值,值越小,黑色部分就越多,白色部分就越少。运行后可以得到二值化后的图片。

降噪处理

在二值化后,图片中仍有一些噪点和干扰线条。如果不处理这些噪声,将会影响后续的字符识别,因此需要进行降噪处理,将图片中的噪点和干扰线条消除。代码如下:

pythonimport cv2
img = cv2.imread('test.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
retval, threshold = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
blur = cv2.GaussianBlur(threshold,(5,5),0)
cv2.imshow('Image', blur)
cv2.waitKey(0)
cv2.destroyAllWindows()

这段代码使用高斯滤波函数对图片进行平滑处理,消除噪声和干扰线条。其中(5,5)指定核的大小,值越大,平滑效果越明显。运行后可以得到处理后的图片。

识别验证码

对于数字和字母混合的验证码,我们需要对每个字符进行识别。可以采用字符分割的方法,将验证码图片分割成单个字符图片,再进行字符识别。代码如下:

pythonimport pytesseract
import cv2
img = cv2.imread('test.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
retval, threshold = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
blur = cv2.GaussianBlur(threshold, (5,5), 0)
contours, hierarchy = cv2.findContours(blur, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
count = 0
for contour in contours:
    (x,y,w,h) = cv2.boundingRect(contour)
    if w > 10 and h > 10:
        roi = blur[y:y+h, x:x+w]
        cv2.imwrite(str(count)+'.jpg', roi)
        text = pytesseract.image_to_string(roi, lang='eng')
        print(text)
        count += 1
cv2.imshow('Image', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

这段代码先对图片进行二值化和降噪处理,然后使用findContours函数找到并分割出每个字符的边缘轮廓。再使用boundingRect函数得到每个字符的位置和大小,并使用image_to_string函数对每个字符进行字符识别。运行代码后,可以看到输出结果为分割出的每个字符及其识别结果。

总结

本文介绍了如何使用 Python 和相关库来识别数字验证码。通过这种方法,我们可以实现验证码的自动识别,用于自动化测试、爬虫程序或其他需要验证码处理的场景。在实际应用中,可以根据具体的需求对识别方法进行进一步优化和调整,以获得更好的识别效果。

相关推荐

win10激活注意事项(win10激活过程要多久)

1.是:KMS激活、数字许可证激活、产品密钥激活。2.KMS激活是通过KeyManagementService服务器来激活系统,它需要连接到企业内部的KMS服务器进行激活,适用于企业用户。数字...

华硕官网正品查询(华硕官网防伪查询)

登陆网站www.asus.com.cn进入网站,点击防伪查询,输入16位防伪数码,即可辨别真伪。华硕显卡sn码官网查1.打开浏览器进入华硕官方网站。2.在页面下方找到“华硕产品服务政策”类目,点击进入...

数据网络打开了连不上网怎么回事

1、如您无法上网请尝试关机开机重启;请检查是否已达本月流量封顶阀值;请检查手机设置移动数据是否已打开;手机设置流动数据选项APN及名称是否设置为3gnet。2、如仍无法上网,建议您可通过以下方式进行排...

synopsys软件(synthia软件)

PSIM是趋向于电力电子领域以及电机控制领域的仿真应用包软件。PSIM具有仿真高速、用户界面友好、波形解析等功能,为电力电子电路的解析、控制系统设计、电机驱动研究等有效提供强有力的仿真环境。本...

cmd定时关机命令设置时间(cmd定时关机怎么设置)

在WindowsXP下打开C盘,在Windows下选system32中有一个shutdown的程序,可以复制到其它系统中。“开始”--->运行--->(在输入shutdown的命令)...

笔记本电脑开机就蓝屏(笔记本电脑开机就蓝屏了)

USB:  假如计算机处于开机的状态时USB接口上有U盘等存储设备,那么计算机就很有可能出现蓝屏现象,而且无法正常开机。因此,当计算机在开机时出现蓝屏状态时,我们首先要检查一下USB接口是否有接入U...

重置无线路由器(重置无线路由器密码)

1、将网线—路由器—电脑之间的线路连接好,启动电脑和路由器设备;2、启动设备后,打开浏览器,在地址栏中输入192.168.1.1进入无线路由器设置界面。(如进不了请翻看路由器底部铭牌或者是路由器使用说...

电脑有网却打不开网页是怎么回事
  • 电脑有网却打不开网页是怎么回事
  • 电脑有网却打不开网页是怎么回事
  • 电脑有网却打不开网页是怎么回事
  • 电脑有网却打不开网页是怎么回事
win7系统整个界面变大(win7系统整个界面变大怎么办)

解决方法:1、首先查看当前系统的桌面图标情况,发现桌面图标突然变成了超大号的了。非常难看。2、右键点击桌面空白处,分别选择“查看”,“中等图标”。3、现在再查看桌面图标,发现已经恢复了。4、还有一种方...

电脑设置一切正常就是没声音

在电脑重置后没有声音的情况下,可能有以下几种可能的原因和解决方法:1.音频驱动程序问题:电脑重置后,可能需要重新安装或更新音频驱动程序。你可以尝试重新安装声卡驱动程序,可以从电脑或声卡制造商的官方网...

eset nod32官网(esetnod32官网)

从系统性能上来说,卡巴斯基对系统的影响略大于ESETNOD32。具体表现就是,系统反应有所变慢,硬盘读写变频繁。从防护角度上来说的话……卡巴斯基的防护组件很多(商业版,免费版不在考虑范围之内),全开...

如何安装ie浏览器(怎么安装ie浏览器 win10)

方法一:一般系统自带的IE不能卸载和自己安装,如果是系统自带的可以还原系统或重装,也可用软件覆盖安装IE试试。使用系统自带的系统还原的方法:系统自带的系统还原:“开始”/“程序”/“附件”/“系统工具...

一键恢复桌面图标win7(一键恢复桌面图标win10)

Win7桌面图标设置:  1.在桌面上点击鼠标右键点击(其中查看菜单的子项是用来修改桌面图标的大小,如需修改图标大小只需在此菜单设置即可),选择“个性化”。2.在个性化设置窗口,单击左侧的更改桌面图...

win7格式化电脑怎么弄

win7旧电脑想要格式化干净,具体方法如下:WIN7电脑利用鼠标点击我的电脑,找到C盘,鼠标右键选择格式化,这样就可以格式化,干干净净在Windows7中,您可以通过以下步骤来格式化计算机,而无需...

蓝牙适配器驱动安装教程(蓝牙适配器的驱动怎么安装)

1可以在官网或第三方软件平台下载相关驱动程序。2在安装驱动前,需要先确认你的蓝牙适配器的类型和型号,然后去对应的官网或者第三方软件平台下载最新的驱动。3安装驱动程序时需要注意,不能插拔蓝牙适配器...

取消回复欢迎 发表评论: