Python处理验证码:基于PIL和Tesseract的数字计算识别处理思路
off999 2024-10-23 12:52 56 浏览 0 评论
如图,我们在使用python自动化的时候经常会遇到很多各式各样的验证码。这个是一个数字加法的验证码。
干扰项里包含完整的数字、字母信息,普通的OCR识别可能不是很准确。
但是不管怎么样,咱们先把必要的环境搭建起来,试一下Tesseract的识别结果吧。
私信小编01即可获取大量Python学习资源
- 1、安装Tesseract:
首先需要下载Tesseract的安装包 官方网址:https://digi.bib.uni-mannheim.de/tesseract/,网上的教程很多推荐安装名称里不带dev的正式版,据说更稳定
- 配置Tesseract:
安装完毕之后需要配置一下环境变量,分为两步:
1、在path里加入安装路径,及安装路径内的tessdata文件夹路径。
2、新建系统变量{TESSDATA_PREFIX:E:\Program Files (x86)\Tesseract-OCR\tessdata} 这里变量名是固定的TESSDATA_PREFIX,值是刚刚提到的安装路径内下一级tessdata文件夹的完整路径
然后命令行里 安装pytesseract:
pip install pytesseract完成以上步骤之后,请重新启动电脑。
- 图片无法处理识别:
直接调用ocr识别出结果的话,只需要3行代码:
import pytesseract
text = pytesseract.image_to_string('图片路径或者内存的图片对象')
print(text)但是对于这个验证码的效果不是非常好,比如:
要么是没有结果,要么就是一堆乱七八糟的东西。
这样肯定是用不了的
那么只能先处理一下图片了
- 图片处理识别:
我下载了20张这个网站的二维码,发现了以下规律:
1、验证码内容一定包含“ = 2位数字+2位数字”的
2、验证码内容的颜色是随机的。
3、验证码内容的位置应该是固定的(20张图片的加号都在同一位置)
4、验证码图片的干扰内容包含字母、数字、符号
5、验证码图片的干扰内容颜色没有跟主要内容一模一样,但是每张图的干扰项一定包含主要内容颜色相近的部分。
可以看到,根据字体的不同,显示的时候,主干是棕色的,但是构成这个字的边缘颜色是稍微淡一些的。不过20张图里都没有发现有干扰项的颜色跟主要内容颜色一模一样。
所以我的想法是因为存在主干的近似色,所以主要的滤波手段可能导致把图片变得更难处理的可能性,所以不如直接获取主干颜色,其他像素不是主干颜色的全部以白色替代,删除干扰项之后再进行识别。
主干颜色可以使用固定的加号的正中间那一点的坐标获取。(80,23)(80,24)
Python代码如下:
# -*- coding: utf-8 -*-
"""
Created on Wed Apr 14 16:23:47 2021
@author: roshinntou
"""
from PIL import Image
import pytesseract
def images_to_string(index):
#导入图片,抓取的时候可以直接获取io流
img1= Image.open('index ('+str(index)+').png')
#获取图片的长宽
w,h = img1.size
print('Original image size: %sx%s' % (w, h))
'''
因为是PNG图片,像素不是直接以RGB保存的,PNG的每个像素里还有透明度
我们不需要处理透明度,tesseract对于白色和不透明的识别是一样的,这里就转成RGB
如果图片是jpg的,可以直接使用,不需要 convert
'''
img1rbg = img1.convert('RGB')
#读取全部的像素数据
src_strlist = img1rbg.load()
#获取主干颜色
data = src_strlist[80,23]
print(data)
#双层循环开始替换全部的像素点颜色
for x in range(0,w):
for y in range(0,h):
#判断当前点颜色是否等于主干颜色
co = src_strlist[x,y]
if co !=data:
src_strlist[x,y] = (245, 245, 255)
#直接调用内存里的PIL image对象进行图片识别
text = pytesseract.image_to_string(img1rbg)
text = text.replace(" ","").replace("\r\n","").replace(" ","").replace("\r","").replace("\n","")
#打印结果
print(text)
#保存图片
img1rbg.save(text+'.png')
if __name__ == '__main__':
for i in range(1,21):
images_to_string(i)
文件如下:
结语:
准确率我大概看了一下,应该是100%的。以上算是成功破解了对方网站的验证码。
验证码的识别整体思路应该就是这样子了,当然我举得例子是比较简单的验证码。还有各种麻烦的验证码,未来可能需要用到截取、卷积、滤波、清洗等等方法,需要根据实际的情况灵活地使用,但是整体的思路就是:
找到验证码规律,根据规律清洗干扰噪点,然后识别。希望可以启发到大家。
最后的最后,现在已经可以获取验证码的字符串了,计算结果非常简单我就不做了。有兴趣的可以试试,我会把所有图片、源代码打包,大家可以下载试一下。
Tesseract安装的时候,系统变量哪里2步都不能少,少一个程序执行就会报错,切记
相关推荐
-
- 智慧工厂管理系统(智慧工厂管理系统哪家好)
-
智慧工厂智能化系统整体的解决方案分为三个主要部分,分别是现场控制系统(FDC)、生产数据管理系统(PDM)以及工厂数字化协同平台(LCT)。其中,现场控制系统(FDC)是智慧工厂系统非常重要的核心组成部分,它是一个支持大规模互联的集群控制系...
-
2025-11-13 22:03 off999
- 电脑如何打开隐藏文件(电脑怎么打开隐藏文件夹)
-
要显示隐藏文件,首先需要打开文件资源管理器,然后点击菜单栏中的“查看”选项,选中“隐藏项目”复选框即可。此时,隐藏文件和文件夹将会显示在文件资源管理器中,可以进行正常操作。如果需要隐藏文件和文件夹,可...
- 华硕官网客服电话(华硕官网400客服电话)
-
华硕维修中心官网,http://www.asus.com.cn/support/你可以通过电话,邮件等方式联系华硕的售后客户,提供你的主板序列号,他会告诉你的。华硕ROG真享服务包是一项专门针对购买华...
- win11如何进入安全模式(win11如何进入安全模式启动)
-
进入Win11安全模式有多种方法,下面介绍两种常用的方法:方法一:使用系统配置工具1.使用组合键Win+R打开“运行”对话框,输入“msconfig”并按Enter键。2.在“系统配...
- 网易邮箱163登录界面(网易163邮箱登陆界面)
-
163邮箱登录首页入口为http://mail.163.com/网易163免费邮箱--中文邮箱第一品牌.容量自动翻倍,支持50兆附件,免费开通手机号码邮箱赠送3G超大附件服务.支持各种客户端软件收发,...
- win10激活注意事项(win10激活过程要多久)
-
1.是:KMS激活、数字许可证激活、产品密钥激活。2.KMS激活是通过KeyManagementService服务器来激活系统,它需要连接到企业内部的KMS服务器进行激活,适用于企业用户。数字...
- 华硕官网正品查询(华硕官网防伪查询)
-
登陆网站www.asus.com.cn进入网站,点击防伪查询,输入16位防伪数码,即可辨别真伪。华硕显卡sn码官网查1.打开浏览器进入华硕官方网站。2.在页面下方找到“华硕产品服务政策”类目,点击进入...
- 数据网络打开了连不上网怎么回事
-
1、如您无法上网请尝试关机开机重启;请检查是否已达本月流量封顶阀值;请检查手机设置移动数据是否已打开;手机设置流动数据选项APN及名称是否设置为3gnet。2、如仍无法上网,建议您可通过以下方式进行排...
- synopsys软件(synthia软件)
-
PSIM是趋向于电力电子领域以及电机控制领域的仿真应用包软件。PSIM具有仿真高速、用户界面友好、波形解析等功能,为电力电子电路的解析、控制系统设计、电机驱动研究等有效提供强有力的仿真环境。本...
- cmd定时关机命令设置时间(cmd定时关机怎么设置)
-
在WindowsXP下打开C盘,在Windows下选system32中有一个shutdown的程序,可以复制到其它系统中。“开始”--->运行--->(在输入shutdown的命令)...
- 笔记本电脑开机就蓝屏(笔记本电脑开机就蓝屏了)
-
USB: 假如计算机处于开机的状态时USB接口上有U盘等存储设备,那么计算机就很有可能出现蓝屏现象,而且无法正常开机。因此,当计算机在开机时出现蓝屏状态时,我们首先要检查一下USB接口是否有接入U...
- 重置无线路由器(重置无线路由器密码)
-
1、将网线—路由器—电脑之间的线路连接好,启动电脑和路由器设备;2、启动设备后,打开浏览器,在地址栏中输入192.168.1.1进入无线路由器设置界面。(如进不了请翻看路由器底部铭牌或者是路由器使用说...
- win7系统整个界面变大(win7系统整个界面变大怎么办)
-
解决方法:1、首先查看当前系统的桌面图标情况,发现桌面图标突然变成了超大号的了。非常难看。2、右键点击桌面空白处,分别选择“查看”,“中等图标”。3、现在再查看桌面图标,发现已经恢复了。4、还有一种方...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
