百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python爬虫:利用Tesseract-OCR实现图片验证码识别,超简单

off999 2024-10-23 12:52 37 浏览 0 评论

图/文:迷神

我们在做Python爬虫的时候,经常遇到图片验证码登陆等情况。图像验证码识别的方法也有很多种,利用Tesseract-OCR实现图片验证码识别就是其中一种,也比较简单。

Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。


我们准备环境:WIN10系统+Python3.6版本。

安装识别引擎

安装识别引擎tesseract-ocr。下载地址,大家可以私信 发送:识别 ,即可获取安装完整安装软件。

主要是根据自己的需要设置下安装目录即可。其他基本上一路next即可。

安装环境

先安装python识别图片的类库。命令如下:

pip install Pillow

pip install pytesseract

接下来还要设置下,让python能够调用Tesseract-OCR程序识别验证码/文字。相关路径:

修改pytesseract.py文件中第35行将tesseract_cmd指向Tesseract-OCR的tesseract.exe

中文支持:安装完之后找到tessdata目录下,将下载的chi_sim.traineddata文件放到该目录下。这样它就能识别中文了。

实现代码

识别图片:

相关代码如下:

from PIL import Image

import pytesseract

imageObject=Image.open('D:\\D://new.jpg')

print (imageObject)

print (pytesseract.image_to_string(imageObject))

直接看下最终的结果

from PIL import Image

import pytesseract

pic_content=pytesseract.image_to_string(Image.open('D:\\3.png'),lang='chi_sim')

print(pic_content)

中文识别结果,还算可以:


题外话:图片识别训练

这个只是基础,还有一些内容可能会识别不了,特别是中文的,这个时候,就需要进行训练,训练的流程如下:

安装jTessBoxEditorFX-> 获取样本.tif文件 -> Merge样本文件 –> 生成BOX文件 -> 字符矫正 -> 执行脚本文件 -> 将生成的.traineddata文件放入Tesseract-OCR\tessdata文件夹下

限于篇幅,我就不仔细说了,大家可以继续拓展研究。关于python爬虫的验证码识别,其实还有很多其他方式,更多好文章,大家可以关注后续内容哦。

相关推荐

u盘启动杀毒软件(u盘杀毒系统)

  有,但是主要是专杀工具,全面的综合杀毒软件基本上没有,因为没什么用。  1、放在U盘里的杀毒软件,就是不安装,也不监控,只杀毒的软件。  2、目前的杀毒软件的工作机制,主要是监控,监控电脑不感染病...

联想维修站点查询官网(联想 维修 服务网点)

您可以在联想的官方网站上查询到附近的授权维修服务点,或者拨打联想的客服电话寻求帮助。在维修服务点,您可以享受到专业的维修服务,包括硬件故障、软件问题、系统优化等方面的维护和维修。维修人员将会根据您的电...

怎么登录hotmail邮箱(邮箱登陆hotmail)
  • 怎么登录hotmail邮箱(邮箱登陆hotmail)
  • 怎么登录hotmail邮箱(邮箱登陆hotmail)
  • 怎么登录hotmail邮箱(邮箱登陆hotmail)
  • 怎么登录hotmail邮箱(邮箱登陆hotmail)
电脑不识别移动硬盘(移动硬盘灯亮但不读取)

电脑不能识别移动硬盘可能是由于以下原因造成的:1.电脑和硬盘之间的连接首先,可以确保移动硬盘正确连接到电脑上,检查USB接口是否松动或损坏,可以尝试更换USB线或者尝试连接到其他USB接口看是否能够...

键盘的win键在哪里(电脑键盘的win键在哪里)

win键就是电脑键盘上显示WINDOWS标志的按键。位于CTRL键与ALT键两个键之间,win键的具体位置一般电脑键盘上有左右两个。Windows键是一种特殊的键,通常位于键盘的左下角。它的图案是一个...

新手学做ppt(新手学做ppt的软件有哪些)
  • 新手学做ppt(新手学做ppt的软件有哪些)
  • 新手学做ppt(新手学做ppt的软件有哪些)
  • 新手学做ppt(新手学做ppt的软件有哪些)
  • 新手学做ppt(新手学做ppt的软件有哪些)
ghost全盘备份步骤图(用ghost怎么进行全盘备份)

可以用手动备份到指定分区。一、用一键Ghost还原中的“中文向导”备份开始-程序-一键Ghost-选出“中文向导”,Ghost中文向导-1、备份文件默认是“第1硬盘第1分区”,如果不是,将鼠标指针移...

键盘的windows键是哪一个(键盘上windows键是哪个键)
键盘的windows键是哪一个(键盘上windows键是哪个键)

windows键就是电脑键盘上ctrl键和alt键之间的按键,位于左下角。它带着微软的徽标,跟开始菜单一样的图标,它属于辅助按键,主要与其它按键组合使用,实现一些特定的功能,组合成多种快捷操作方式。这里上面所知的Win键其实就是键盘上的Wi...

2025-12-31 10:51 off999

win10打开设置快捷键(win10打开设置快捷键是什么)

1、首先打开电脑,在任务栏的语言地方点击一下再点击语言首选项。2、然后在新的界面里点击选择左侧“高级设置”按钮。3、之后在新的界面里点击选择“更改语言栏热键”按钮。4、然后在新的界面里点击选择“更改热...

flash插件下载手机版下载安装

华为手机的最新系统版本已经不再支持FlashPlayer,这是由于Adobe已于2020年底停止更新和支持FlashPlayer。因此,如果您使用最新的华为手机系统,可能无法安装和使用Flash...

官方应用商店下载(小米官方应用商店下载)

1.审核和验证:应用商店会对应用进行审核和验证,确保其质量和可靠性。开发者需要满足一定的要求才能在应用商店上架应用。而官网下载的应用没有经过此类审核和验证,因此用户需要自行评估其质量和可信度。2....

主题软件免费(主题软件免费推荐)

下载主题方法:一、打开手机找到APPStore应用软件,二、点击进去在下面找到有个搜索,点击它查找主题壁纸,三、弹出来很多主题壁纸,根据下载量和个人喜欢的应用主题选择下载相应的主题,四、下载成功后即...

一芯fc1178bc盘量产教程(一芯量产工具使用教程)

fc1178bc量产工具没有显示u盘拔下U盘,关闭量产工具,再插上U盘(先要确认卸载了安国的驱动,如果不能确认,运行LoadDriver.exe卸载),然后插上U盘,右键我的电脑---属性---硬件-...

电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
  • 电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
  • 电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
  • 电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
  • 电脑怎么样还原原来的系统(电脑怎么还原之前的系统版本)
u盘内文件损坏怎么办(u盘内文件损坏怎么办解决)

以下是8种修复U盘文件损坏的方法:1.风险自担型:试图直接复制文件如果U盘的部分文件损坏,您可能可以使用此方法。请复制文件您能打开的所有文件,并尝试将它们粘贴到桌面或其他文件夹中。但是请...

取消回复欢迎 发表评论: