百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

盘点一个Python网络爬虫过验证码的问题

off999 2024-12-22 20:08 49 浏览 0 评论

一、前言

前几天一个粉丝【鶏啊鶏】问我一个Python数据采集的问题,需求如下:

想写一个脚本能自动采集下载当天发布的这个页面的这几个免费报告,能保存成这个标题的pdf文件,网站是手机号注册就能下载这些文件的,就是在我注册登录状态下,能采集下载。

下面是他的代码:

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
from PIL import Image
import ddddocr
 
ocr = ddddocr.DdddOcr()
 
options = webdriver.ChromeOptions()
options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36')
options.add_argument("--disable-blink-features=AutomationControlled")
driver = webdriver.Chrome(options=options)
 
# 打开目标网页
driver.get('https://sol.sinosure.com.cn')
time.sleep(5)
driver.maximize_window()
# 定位验证码图片元素并模拟鼠标悬停以加载图片
yanzhengma = driver.find_element(By.CSS_SELECTOR, '.pass-form-item.pass-form-item-code')
captcha_element = yanzhengma.find_element(By.CSS_SELECTOR,  '.pass-label-img')
webdriver.ActionChains(driver).move_to_element(captcha_element).perform()
time.sleep(5)
 
# 获取验证码图片元素的位置和大小
location = captcha_element.location
size = captcha_element.size
print(location)
print(size)
# 截取整个网页的截图
driver.save_screenshot('screenshot.png')
 
# 根据验证码图片元素的位置和大小,从整个网页截图中裁剪出验证码图片
left = int(location['x'])
top = int(location['y'])
right = int(location['x'] + size['width'])
bottom = int(location['y'] + size['height'])
captcha_screenshot = Image.open('screenshot.png').crop((left, top, right, bottom))
print(left)
print(top)
print(location)
print(bottom)
# 保存裁剪后的验证码图片,并进行识别
captcha_screenshot.save('captcha.png')
with open('captcha.png', 'rb') as f:
    img_bytes = f.read()
res = ocr.classification(img_bytes)
print('识别的验证码是:' + res)


基本思路是没啥问题的,确实也是可以拿到对应界面的截图,只不过是验证码的位置截取出现了点偏差,导致验证码没正确识别到。


这个部分我看介绍应该是会返回定位的元素位置,我大致拖拉了一下在裁剪前的定位,打印出来确实就已经去了输入密码附近的位置了,但是我定位的元素是验证码的地方,并且我也尝试了先定位验证那个位置的大元素再定位至具体的验证码图片位置,问题依旧。



二、实现过程

这里强哥尝试了下代码,但是出现下图报错:

这个报错还是蛮常见的,对于时常使用sel的人来说,这个报错算是家常便饭了,报错的原因是本地浏览器驱动和谷歌浏览器的版本不匹配,需要更换本地浏览器驱动。

关于这个问题的解决方法,就是去网页下载对应浏览器版本的对应驱动,放到本地指定文件夹,确保该文件夹路径有加入环境变量。


言归正传,继续回到这个问题的解决办法。这里【甯同学】给了一个思路,直接找到 验证码的图片的url 用requests 请求 验证码的.content 用 ocr.classification(验证码的.content) 就可以了 不用保存图片 在open读取二进制流,代码如下所示:

顺利地解决了粉丝的问题,如果对requests和Beautiful还不熟悉的小伙伴,可能接受起来就比较困难一些。


三、总结

大家好,我是强哥。这篇文章主要盘点了一个Python网络爬虫过验证码的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

大家在学习Python的过程中难免会遇到各种问题,网上的资料鱼龙混杂,难以真正解决问题。应粉丝要求,强哥我这里有高质量的Python学习资料和兼职接单群!

1、我会给你提供Python学习资料 (Python基础,Python网络爬虫,Python数据分析),提供详细答疑(响应速度很快) ,有问必答,不懂的Python问题随便问

2、不定期发布互联网求职招聘信息

3、关于就业、抉择、买房等人生事情,也都可以咨询我,知无不言言无不尽,近距离与我沟通,给你建设性的建议,让你少走弯路。

4、不定期发布Python相关的外快单子,有爬虫,数据分析,数据处理,数据可视化,机器学习,学生作业,web开发等外快单子,价格在几百元、几千元甚至上万的单子都有,看你能力接单。

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

最后,感兴趣的朋友欢迎后台发“学习资料”就可以啦!

相关推荐

itunes下载的固件在哪个位置

可以刷机的将手机联入电脑电脑会自动下载符合手机的版本的固件是一样的,都是通过官方固件包来重装系统。操作步骤如下;1.电脑端下载最新版本的itunes,不然重装时可能会造成未知错误。2.iphone...

电脑重装系统后没声音(电脑重装系统后没声音怎么解决win7)

如果您在电脑重装系统后没有声音,可能是由于以下一些常见问题导致的:1.驱动程序问题:重装系统后,可能需要重新安装声卡驱动程序。您可以从电脑制造商的官方网站或声卡制造商的官方网站上下载并安装最新的声卡驱...

win10制作系统u盘(制作win10系统优盘)

方法一:使用微软官方工具制作u盘工具安装win101、首先电脑浏览器输入“windows10下载”,找到微软官方地址进入,然后选择立即下载工具到电脑上。2、鼠标右键选择以管理员身份运行,同意协议进入下...

苹果手机wlan设置在哪(苹果手机 wlan)

进入设置->Wi-Fi。如何设置iPhone的WIFI?2.选择Wi-Fi之后,会显示附近能搜索到的所有的Wi-Fi网络。如何设置iPhone的WIFI?3.选中其中网络Wi-F...

召唤系统游戏(召唤系统游戏排行)

亡灵进化专家:写的很不错了。猪脚可以用金属或骨头帮自己的亡灵进化升级挺有意思的。不过还没写完网游之审判:是英雄无敌类型的。不过写的很牛逼也写完了。推荐看看还有不死传说:虽然不是召唤的,主教是僵尸和吸血...

w7系统怎么样(电脑w7系统怎么样)

有以下几点理由来分析为什么win7受欢迎1、Windows7有望受到企业用户认可微软目前的最大担心是:企业用户认为Windows7性能同Vista相差不大,因此不会出手购买。微软当初发布Vist...

无敌系统流小说(无敌系统流的小说)

《嫡女之花开富贵》作者:伊人睽睽简介祖父是镇国将军,贵不可言;外公是帝师,才名满天下;父母亲琴瑟和鸣,恩爱无双,无妾室插足;穿越为书香门第的嫡小姐,且无任何庶兄妹,慕兰音认为,她这一生,必将佳期如梦...

键盘上windows键是哪个键(电脑键盘上windows键是哪个)
键盘上windows键是哪个键(电脑键盘上windows键是哪个)

一、台式机键盘。Windows键,简称“Winkey”或“Win键”,是在计算机键盘左下角Ctrl和Alt键之间的按键,台式机全尺寸键盘的主键盘区左下角和右下角各有一个,图案是MicrosoftWindows的视窗徽标。二、笔记...

2026-01-13 11:51 off999

笔记本电脑必备app(笔记本电脑必备管宿)
  • 笔记本电脑必备app(笔记本电脑必备管宿)
  • 笔记本电脑必备app(笔记本电脑必备管宿)
  • 笔记本电脑必备app(笔记本电脑必备管宿)
  • 笔记本电脑必备app(笔记本电脑必备管宿)
桌面图标设置在哪打开(桌面图标从哪里调出)
桌面图标设置在哪打开(桌面图标从哪里调出)

1、首先来到电脑桌面,此时桌面没有任何图标,如下图所示。2、我们先右键单击任务栏,会出现工具栏,这时我们在下拉的选项里选择“快速启动”按钮。3、单击快速启动按钮后会出现如图所示情况,这时在电脑屏幕的左下方会显示很多快捷按钮,一般情况下单击快...

2026-01-13 10:51 off999

windows如何进入启动项(怎么进入启动选项)

方法步骤如下:1.点击应用在Windows设置界面点击应用选项进入。2.选择启动在左侧分类中选择启动选项。3.点击开关点击软件后方的开关即可启动或关闭开机启动项。1、在Window的文件资...

win11下载安装

一、允许安装软件1、首先点击左下角的开始按键,然后点击“settings”进入设置。2、然后点击设置中的“应用”选项。3、在点击左侧任务栏中的“应用和功能”。4、点击下拉栏,然后选择其中的“任何来源”...

win7支持的最高配置(win7支持的最高配置是多少)

答案是支持win7的最高配置应该是i99900k加b365主板。 不过这套配置市面上价格偏高。这种机器比同等酷睿13代处理器的价格还要高至少一千元以上。而且就性能而言要超过i99900...

指令引用的内存不能为read(指令引用的0x0000000内存.该内存不能为read)

出现“指令引用内存不能为read”的错误可能有多种原因,包括软件冲突、驱动问题、内存质量问题等。以下是一些可能的解决方案:1.检查是否有软件冲突:尝试关闭可能冲突的软件,例如杀毒软件、优化软件等。2...

hp1010打印机驱动程序(hp deskjet1010打印机驱动)

1.把光盘到电脑里然后打开光盘找到“setup.exe”双击运行。2.这里点击“不用了,谢谢,我喜欢CD安装”;下载的驱动也点这个。3.到这个一步有6个软件需要安装,不用点选直接下一步即可。4.同意服...

取消回复欢迎 发表评论: