百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

神器!使用Python 轻松识别验证码(python用模块实现验证码生成)

off999 2024-10-22 13:32 39 浏览 0 评论

前言

在我们进行自动化测试的过程中,免不了要在登录时遇到验证码,很多时候我们都是只能找开发要万能验证码或者暂时关闭验证码这个功能,但是有时候我们必须要验证码是否能够正常生成,所以在这个时候,我们需要做的就是输入验证码,但是验证码这个东西是随机生成的,不是每一次都一样,所以我们还是需要识别然后输入,脚本是没有眼睛的,只能通过代码来进行识别,所以本文就来给大家介绍一下如何使用Python来轻松识别数字验证码。

安装Python库和软件环境

验证码识别需要用到一些Python库和软件环境,下面将介绍它们的安装步骤。

  1. 安装Tesseract OCR

它是一个开源的光学字符识别引擎,用于识别验证码中的文本内容,能够识别70多种语言的文本,并为开发者提供简单易用的API。可以通过以下链接下载和安装:https://github.com/tesseract-ocr/tesseract 。在Windows系统下可以下载exe文件进行安装。

注:Tesseract安装完成后需要将tesseract.exe文件路径加入系统的环境变量,否则无法在Python脚本中调用。

  1. 所需Python库

验证码识别需要使用的Python库包括:pillow(PIL)pytesseractopencv-python。pillow为Python自带的标准库,其它库可以使用pip命令自动安装:

pythonpip install pytesseract
pip install opencv-python

识别简单的数字验证码

  1. 准备验证码图片

首先,我们需要准备一些验证码图片。可以在网络上搜索验证码图片进行下载,或者使用Python的爬虫程序去爬取目标网站的验证码。这里我们先手动下载一个简单的数字验证码图片,保存为“test.jpg”。

  1. 加载验证码图片

我们可以使用Pillow库(Python Imaging Library)加载验证码图片。Pillow库可以读取和处理不同类别的图片格式,如jpg、png、bmp等等。代码如下:

pythonfrom PIL import Image
img = Image.open('test.jpg')
img.show()
  1. 识别验证码

使用pytesseract库,我们可以很容易地把图片中的数字识别出来。pytesseract库依赖于Tesseract OCR引擎,能够处理各种难度的验证码,如数字、字母、汉字、倾斜、变形等等。代码如下:

pythonimport pytesseract
text = pytesseract.image_to_string(Image.open('test.jpg'), lang='eng')
print(text)

这段代码的意思是用pytesseract库将图片中的字符串转换为字符。lang参数可以指定识别的语言类型,这里我们使用了eng,表示英文。如果验证码是汉字,设置为chi_sim即可。

识别数字字母混合的验证码

当验证码中既包含数字又包含字母时,需要对识别的方法进行修改,下面介绍一种简单的处理方法,即通过二值化和降噪处理来增加识别率。

二值化处理

二值化处理就是将图片中的所有像素转换为黑白两种颜色。对于验证码图片,我们可以将其转换为黑白灰度图像,便于后续的处理。代码如下:

pythonimport cv2
img = cv2.imread('test.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
retval, threshold = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
cv2.imshow('Image', threshold)
cv2.waitKey(0)
cv2.destroyAllWindows()

这段代码用OpenCV库将图片读取为灰度图像,并进行二值化处理。其中,127是阈值,值越小,黑色部分就越多,白色部分就越少。运行后可以得到二值化后的图片。

降噪处理

在二值化后,图片中仍有一些噪点和干扰线条。如果不处理这些噪声,将会影响后续的字符识别,因此需要进行降噪处理,将图片中的噪点和干扰线条消除。代码如下:

pythonimport cv2
img = cv2.imread('test.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
retval, threshold = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
blur = cv2.GaussianBlur(threshold,(5,5),0)
cv2.imshow('Image', blur)
cv2.waitKey(0)
cv2.destroyAllWindows()

这段代码使用高斯滤波函数对图片进行平滑处理,消除噪声和干扰线条。其中(5,5)指定核的大小,值越大,平滑效果越明显。运行后可以得到处理后的图片。

识别验证码

对于数字和字母混合的验证码,我们需要对每个字符进行识别。可以采用字符分割的方法,将验证码图片分割成单个字符图片,再进行字符识别。代码如下:

pythonimport pytesseract
import cv2
img = cv2.imread('test.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
retval, threshold = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
blur = cv2.GaussianBlur(threshold, (5,5), 0)
contours, hierarchy = cv2.findContours(blur, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
count = 0
for contour in contours:
    (x,y,w,h) = cv2.boundingRect(contour)
    if w > 10 and h > 10:
        roi = blur[y:y+h, x:x+w]
        cv2.imwrite(str(count)+'.jpg', roi)
        text = pytesseract.image_to_string(roi, lang='eng')
        print(text)
        count += 1
cv2.imshow('Image', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

这段代码先对图片进行二值化和降噪处理,然后使用findContours函数找到并分割出每个字符的边缘轮廓。再使用boundingRect函数得到每个字符的位置和大小,并使用image_to_string函数对每个字符进行字符识别。运行代码后,可以看到输出结果为分割出的每个字符及其识别结果。

总结

本文介绍了如何使用 Python 和相关库来识别数字验证码。通过这种方法,我们可以实现验证码的自动识别,用于自动化测试、爬虫程序或其他需要验证码处理的场景。在实际应用中,可以根据具体的需求对识别方法进行进一步优化和调整,以获得更好的识别效果。

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: