百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

在Python中使用tesseract识别验证码

off999 2024-10-23 12:52 34 浏览 0 评论

前言

在对网站数据进行爬取的过程中,由于访问过于频繁或是其他的原因,经常会出现输入验证码进行验证的情况,面对这种验证码验证的问题,一般有三种解决方法:

  • 第一种,最简单也是最费时的,手动输入验证码;
  • 第二种,使用一些公司的API接口对验证码进行判别和输入;

  • 第三种,使用tessract对验证码进行识别;

在这里,我们使用tessract对验证码进行识别。

Tesseract简介

tesseract是谷歌开源的一个ORC组件,并支持语言的训练,支持中文的识别(需要下载语言包)

Python中使用Tesseract

在Python中安装Tesseract一共分为三步:

1、pip安装pytesseract及其他依赖库

pip pytesseract

在使用pytesseract中需要读取图像,所以还需要安装Pillow

2、安装tesseract

下载并安装:https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe

3、修改tesseract.py文件

防止提示没有匹配的文件

# tesseract_cmd = 'tesseract'
tesseract_cmd = "C:/Program Files (x86)/Tesseract-OCR/tesseract.exe" # tesseract的安装目录

防止提示Unicode编码错误

# f = open(output_file_name)
f = open(output_file_name,encoding='utf-8')

做完这三步,就可以使用tesseract基本的功能了。

下面来看看在实际的代码中如何利用tesseract进行验证码识别:

原始的验证码图像为:


示例验证码为:

#coding:utf-8
'''
 验证码识别
'''
from PIL import Image,ImageFilter,ImageEnhance
import pytesseract
# 二值化
threshold = 140
table = []
for i in range(256):
 if i < threshold:
 table.append(0)
 else:
 table.append(1)
# 识别验证码
def get_vcode():
 # 打开原始图像
 image = Image.open("getimgbysig.jpg")
 # image = Image.open("e:/a.jpg")
 # 将图像转为灰度,并另存为
 bimage = image.convert('L')
 bimage.save('g'+"getimgbysig.jpg")
 # 进行二值化处理,并另存为
 out = bimage.point(table,'1')
 out.save('b'+"getimgbysig.jpg")
 icode = pytesseract.image_to_string(image)
 bcode = pytesseract.image_to_string(bimage)
 vcode = pytesseract.image_to_string(out)
 print(icode,bcode,vcode)
if __name__ == '__main__':
 get_vcode()

结果输出为:7364,说明识别成功了。

对于简单、清晰的数字,没有经过任何训练的Tesseract还是能够很精确地识别出来。而对于那些模糊、变形的数字、字母或是中文,就需要先对Tesseract进行训练了,暂且不表。

觉得文章不错或者对你有用,可以关注小编,后面持续更新更多精彩内容哟~


相关推荐

华硕官网客服电话(华硕官网400客服电话)

华硕维修中心官网,http://www.asus.com.cn/support/你可以通过电话,邮件等方式联系华硕的售后客户,提供你的主板序列号,他会告诉你的。华硕ROG真享服务包是一项专门针对购买华...

win11如何进入安全模式(win11如何进入安全模式启动)

进入Win11安全模式有多种方法,下面介绍两种常用的方法:方法一:使用系统配置工具1.使用组合键Win+R打开“运行”对话框,输入“msconfig”并按Enter键。2.在“系统配...

网易邮箱163登录界面(网易163邮箱登陆界面)

163邮箱登录首页入口为http://mail.163.com/网易163免费邮箱--中文邮箱第一品牌.容量自动翻倍,支持50兆附件,免费开通手机号码邮箱赠送3G超大附件服务.支持各种客户端软件收发,...

win10激活注意事项(win10激活过程要多久)

1.是:KMS激活、数字许可证激活、产品密钥激活。2.KMS激活是通过KeyManagementService服务器来激活系统,它需要连接到企业内部的KMS服务器进行激活,适用于企业用户。数字...

华硕官网正品查询(华硕官网防伪查询)

登陆网站www.asus.com.cn进入网站,点击防伪查询,输入16位防伪数码,即可辨别真伪。华硕显卡sn码官网查1.打开浏览器进入华硕官方网站。2.在页面下方找到“华硕产品服务政策”类目,点击进入...

数据网络打开了连不上网怎么回事

1、如您无法上网请尝试关机开机重启;请检查是否已达本月流量封顶阀值;请检查手机设置移动数据是否已打开;手机设置流动数据选项APN及名称是否设置为3gnet。2、如仍无法上网,建议您可通过以下方式进行排...

synopsys软件(synthia软件)

PSIM是趋向于电力电子领域以及电机控制领域的仿真应用包软件。PSIM具有仿真高速、用户界面友好、波形解析等功能,为电力电子电路的解析、控制系统设计、电机驱动研究等有效提供强有力的仿真环境。本...

cmd定时关机命令设置时间(cmd定时关机怎么设置)

在WindowsXP下打开C盘,在Windows下选system32中有一个shutdown的程序,可以复制到其它系统中。“开始”--->运行--->(在输入shutdown的命令)...

笔记本电脑开机就蓝屏(笔记本电脑开机就蓝屏了)

USB:  假如计算机处于开机的状态时USB接口上有U盘等存储设备,那么计算机就很有可能出现蓝屏现象,而且无法正常开机。因此,当计算机在开机时出现蓝屏状态时,我们首先要检查一下USB接口是否有接入U...

重置无线路由器(重置无线路由器密码)

1、将网线—路由器—电脑之间的线路连接好,启动电脑和路由器设备;2、启动设备后,打开浏览器,在地址栏中输入192.168.1.1进入无线路由器设置界面。(如进不了请翻看路由器底部铭牌或者是路由器使用说...

电脑有网却打不开网页是怎么回事
  • 电脑有网却打不开网页是怎么回事
  • 电脑有网却打不开网页是怎么回事
  • 电脑有网却打不开网页是怎么回事
  • 电脑有网却打不开网页是怎么回事
win7系统整个界面变大(win7系统整个界面变大怎么办)

解决方法:1、首先查看当前系统的桌面图标情况,发现桌面图标突然变成了超大号的了。非常难看。2、右键点击桌面空白处,分别选择“查看”,“中等图标”。3、现在再查看桌面图标,发现已经恢复了。4、还有一种方...

电脑设置一切正常就是没声音

在电脑重置后没有声音的情况下,可能有以下几种可能的原因和解决方法:1.音频驱动程序问题:电脑重置后,可能需要重新安装或更新音频驱动程序。你可以尝试重新安装声卡驱动程序,可以从电脑或声卡制造商的官方网...

eset nod32官网(esetnod32官网)

从系统性能上来说,卡巴斯基对系统的影响略大于ESETNOD32。具体表现就是,系统反应有所变慢,硬盘读写变频繁。从防护角度上来说的话……卡巴斯基的防护组件很多(商业版,免费版不在考虑范围之内),全开...

如何安装ie浏览器(怎么安装ie浏览器 win10)

方法一:一般系统自带的IE不能卸载和自己安装,如果是系统自带的可以还原系统或重装,也可用软件覆盖安装IE试试。使用系统自带的系统还原的方法:系统自带的系统还原:“开始”/“程序”/“附件”/“系统工具...

取消回复欢迎 发表评论: