百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

基于python简单图像处理,识别验证码

off999 2024-10-23 12:52 20 浏览 0 评论

基本识别原理概述:

1、每一幅图像在构成上,都是由一个个像素组成的矩阵,每一个像素为单元格。

2、 彩色图像的像素的由三原色(红,绿,蓝)构成元组,灰度图像的像素是一个单值,每个像素的值范围为(0,255)。

问题来源

某系统门户登陆界面如下:

现在我们要实现自动的验证码识别。

图像特征

首先,我们仔细观察下这个验证码图像,可以发现一些固定特征:

1、验证码中的字符数始终为6,并且是灰度图像。

2、字符间的间隔看起来每次都一样。

3、 每个字符都是完全定义的。

4、图像有许多杂散的黑暗像素,以及穿过图像的线条作为干扰因素。

图像分析

所以我最终下载了一个这样的图像,并使用一个工具(binary-image)以二进制形式可视化图像(0表示黑色,1表示白色像素)。

我的观察没错,图像尺寸为45x180,每个字符分配30个像素的空间来适配,从而使它们间隔比较均匀。

因此,取得了验证码识别路上的第一步,结果:

把图像裁剪成6个不同的部分,每个部分的宽度为30像素。

python图像裁剪

我们璇儿Python作为原型语言,因为它的库最容易使用和部署。

经过简单搜索,我找到了PIL库。还用到了Image模块,用来操作图像进行字符裁剪并将图像作为加载为数字矩阵。

字符部分裁剪

图像裁剪的语法是:

from PIL import Image

image = Image.open("filename.png")

cropped_image = image.crop((left, upper, right, lower))

比如要裁剪第一个字符:

from PIL import Image

image = Image.open("captcha.png").convert("L")

cropped_image = image.crop((0, 0, 30, 45))

cropped_image.save("cropped_image.png")

得到的图像为:

我将他打包到一个循环中,编写了一个简单的脚本,从该站点获取500个验证码图像,并将所有裁剪后的字符保存到一个文件夹中。回顾我们上一部分观察到的特征第三点,每个字符都有明确定义。

图像去杂,清理干扰因子

为了"清理"图像中的裁剪掉干扰因素(删除不必要的线和点),我们使用一个很简单的算法:

字符中的所有像素都是纯黑色(0)。如果它不是完全黑色的,将它当成白色的。因此,对于值大于0的每个像素,将给其重新赋值为255。使用load()函数将图像转换为45x180数字矩阵,然后对其进行处理。

pixel_matrix = cropped_image.load()

for col in range(0, cropped_image.height):

for row in range(0, cropped_image.width):

if pixel_matrix[row, col] != 0:

pixel_matrix[row, col] = 255

image.save("thresholded_image.png")

为了清晰起见,我将代码应用于原始图像。

原版的:

做过算法矫正的图

你可以看得到,并非完全黑暗的所有像素都被删除了。比如通过图像的线。上述方法在图像处理中的专业术语叫做阈值处理,当然还有很多处理方法,阈值处理事最简单实用的方法。

去除图像中的黑点

回顾观察到特征的第四点,图像中有许多散杂黑点像素的干扰因子。

循环遍历图像矩阵,并且如果相邻像素是白色的,并且与相邻像素相对的像素也是白色的,并且中心像素是黑色的,则设定中心像素为白色。

for column in range(1, image.height - 1):

for row in range(1, image.width - 1):

if pixel_matrix[row, column] == 0 and pixel_matrix[row, column - 1] == 255 and pixel_matrix[row, column + 1] == 255 :

pixel_matrix[row, column] = 255

if pixel_matrix[row, column] == 0 and pixel_matrix[row - 1, column] == 255 and pixel_matrix[row + 1, column] == 255:

pixel_matrix[row, column] = 255

结果为:

你可以看到,经过以上步骤的处理,图像已经只剩下字符框架了。虽然有些字符已经丢失了一些基础像素,但是每个字符的图像骨架基本上都完备。当然这个是必须的,我们做这么多处理的主要原因是为每个可能的字符都截取生成合适字符图。

构建字符图库

我将上述算法裁剪得到的所有字符图像都存储于文件夹下。下一个任务是为属于"A-Z0-9"的每个字符找到至少一个样本图像。这一步就像"训练"步骤,我手动为每个字符选择了一个字符图像并对其更名。

完成这一步后,每个字符都有一幅骨架图像!

选择最优的字符图

我还运行了其他几个脚本,确保每一个字符的图像中都有最佳的图像,例如,如果有20个'A'的字符图像,暗色(1)数量最少的图像显然是噪声最少的图像,因此最适合作为骨架图像。选择的原则:

一个按照字符排序的相似图像(约束条件:黑像素数量大小,并且相似度> = 90~95%)。

一个从每个分组字符获得最佳图像。

因此,到目前为止,我们生成了一个像素图像库。我们将它们转换为像素矩阵,并将"位图,把字符图转为数字点阵SON文件

识别算法

最后,这就是获取任何新的验证码图像的算法:

使用相同的算法尽量减少新图像中不必要的干扰因子

对于新验证码图片中的每字符,强制通过生成的JSON文件举证来匹配,基于相应的黑像素匹配来计算相似度。

如果一个像素是黑的并且在图像中的位置恰好是破解验证码,并且像素在我们的字符库中的骨架图像/位图中的相同位置处也是的,则计数会递增1。

与骨架图像中黑暗像素的数量做对比,计算匹配百分比,选择具有最高匹配百分比的字符就是识别结果的字符。

结果演示

最终结果如下:

得到的字符为Z5M3MQ, 验证码被成功识别出来了。

相关推荐

python入门到脱坑经典案例—清空列表

在Python中,清空列表是一个基础但重要的操作。clear()方法是最直接的方式,但还有其他方法也可以实现相同效果。以下是详细说明:1.使用clear()方法(Python3.3+推荐)...

python中元组,列表,字典,集合删除项目方式的归纳

九三,君子终日乾乾,夕惕若,厉无咎。在使用python过程中会经常遇到这四种集合数据类型,今天就对这四种集合数据类型中删除项目的操作做个总结性的归纳。列表(List)是一种有序和可更改的集合。允许重复...

Linux 下海量文件删除方法效率对比,最慢的竟然是 rm

Linux下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、findwithdelete、rsync、Python、Perl.首先建立50万个文件$testfor...

数据结构与算法——链式存储(链表)的插入及删除,

持续分享嵌入式技术,操作系统,算法,c语言/python等,欢迎小友关注支持上篇文章我们讲述了链表的基本概念及一些查找遍历的方法,本篇我们主要将一下链表的插入删除操作,以及采用堆栈方式如何创建链表。链...

Python自动化:openpyxl写入数据,插入删除行列等基础操作

importopenpyxlwb=openpyxl.load_workbook("example1.xlsx")sh=wb['Sheet1']写入数据#...

在Linux下软件的安装与卸载(linux里的程序的安装与卸载命令)

通过apt安装/协助软件apt是AdvancedPackagingTool,是Linux下的一款安装包管理工具可以在终端中方便的安装/卸载/更新软件包命令使用格式:安装软件:sudoapt...

Python 批量卸载关联包 pip-autoremove

pip工具在安装扩展包的时候会自动安装依赖的关联包,但是卸载时只删除单个包,无法卸载关联的包。pip-autoremove就是为了解决卸载关联包的问题。安装方法通过下面的命令安装:pipinsta...

用Python在Word文档中插入和删除文本框

在当今自动化办公需求日益增长的背景下,通过编程手段动态管理Word文档中的文本框元素已成为提升工作效率的关键技术路径。文本框作为文档排版中灵活的内容容器,既能承载多模态信息(如文字、图像),又可实现独...

Python 从列表中删除值的多种实用方法详解

#Python从列表中删除值的多种实用方法详解在Python编程中,列表(List)是一种常用的数据结构,具有动态可变的特性。当我们需要从列表中删除元素时,根据不同的场景(如按值删除、按索引删除、...

Python 中的前缀删除操作全指南(python删除前导0)

1.字符串前缀删除1.1使用内置方法Python提供了几种内置方法来处理字符串前缀的删除:#1.使用removeprefix()方法(Python3.9+)text="...

每天学点Python知识:如何删除空白

在Python中,删除空白可以分为几种不同的情况,常见的是针对字符串或列表中空白字符的处理。一、删除字符串中的空白1.删除字符串两端的空白(空格、\t、\n等)使用.strip()方法:s...

Linux系统自带Python2&yum的卸载及重装

写在前面事情的起因是我昨天在测试Linux安装Python3的shell脚本时,需要卸载Python3重新安装一遍。但是通过如下命令卸载python3时,少写了个3,不小心将系统自带的python2也...

如何使用Python将多个excel文件数据快速汇总?

在数据分析和处理的过程中,Excel文件是我们经常会遇到的数据格式之一。本文将通过一个具体的示例,展示如何使用Python和Pandas库来读取、合并和处理多个Excel文件的数据,并最终生成一个包含...

【第三弹】用Python实现Excel的vlookup功能

今天继续用pandas实现Excel的vlookup功能,假设我们的2个表长成这样:我们希望把Sheet2的部门匹在Sheet1的最后一列。话不多说,先上代码:importpandasaspd...

python中pandas读取excel单列及连续多列数据

案例:想获取test.xls中C列、H列以后(当H列后列数未知时)的所有数据。importpandasaspdfile_name=r'D:\test.xls'#表格绝对...

取消回复欢迎 发表评论: