百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

验证码解决思路,Python爬虫在遇到验证码时的不同思路

off999 2024-12-22 20:07 16 浏览 0 评论


在之前的几篇文章当中,我们学习了爬虫的静态动态数据获取和存储。一般来说,我们已经可以进行爬虫开发了。


但是,在实际应用情况下,爬虫在自己工作时会遇到另一个门槛,那就是验证码


由于学记最近才开始学习关于验证码的知识,所依今天只是说一下解决的思路


验证码是各大网站防止用户以外的爬虫肆意占用网站资源的一道


当然了,有锁就会有钥匙,那怎么开锁呢?


一般我们遇到的验证码分为三种:字符验证码图文验证码,和滑动验证码


这三种验证码的处理难度逐级递升


字符验证码

像上图中的字符验证码是最初级的验证码,这种验证码一般是由数字或字母组成,是比较简单的验证码模式。


处理这种验证码需要用到 OCR 技术。

什么是 OCR 技术?就是光学字符识别技术,应用这个技术就可以从图像中抽取文本


像现实世界中的停车场扫描器就是这个原理,在爬虫开发当中,如果遇到了有字符验证码的情况就可以用 OCR 技术进行处理。

在Python当中,有 tesserocr 这个库可以识别字符验证码。


当然了,还是之前的流程,先打开 CMD 在输入 pip3 install tesserocr 即可。


图文验证码

相较于字符验证码,图文验证码的难度就上了一个台阶。


当然图文验证码也是图形的一种,运用上面的 OCR 技术,来识别所需要点击的验证码在哪,再通过 Selenium 来进行模拟点击即可。


滑动验证码

这种验证码最近有很多网站在应用,需要用户滑行到图片的缺口,是一个难度较大的验证码。


当然这种验证码也不是不能破解,和上面两种验证码的思路类似,只不过从获取字符变成获取暗色的区块


在拖动的环节为了契合人类的习惯,在拖动的时候可以将速度设置成不同的速度,以迷惑验证系统


这一篇文章主要是讲一下解决验证码的思路,毕竟验证码是一个比较复杂的领域,学记也是对这些复杂的东西暂时搞不来。


在之后的时间里,学记与这些验证码斗智斗勇之后,会再写一篇关于如何解决验证码的文章。


如果想学习更多科技知识,可以点击关注


如果对文章中的内容有什么困惑的地方,可以在评论区提出自己的问题,学记同大家一起交流,解决各种问题,一起进步。


青年学记 陪伴着各位青年


作者:青年学记 一名不断进步的程序


一起学习 一起进步


走向自立

相关推荐

让 Python 代码飙升330倍:从入门到精通的四种性能优化实践

花下猫语:性能优化是每个程序员的必修课,但你是否想过,除了更换算法,还有哪些“大招”?这篇文章堪称典范,它将一个普通的函数,通过四套组合拳,硬生生把性能提升了330倍!作者不仅展示了“术”,更传授...

7 段不到 50 行的 Python 脚本,解决 7 个真实麻烦:代码、场景与可复制

“本文整理自开发者AbdurRahman在Stackademic的真实记录,所有代码均经过最小化删减,确保在50行内即可运行。每段脚本都对应一个日常场景,拿来即用,无需额外依赖。一、在朋...

Python3.14:终于摆脱了GIL的限制

前言Python中最遭人诟病的设计之一就是GIL。GIL(全局解释器锁)是CPython的一个互斥锁,确保任何时刻只有一个线程可以执行Python字节码,这样可以避免多个线程同时操作内部数据结...

Python Web开发实战:3小时从零搭建个人博客

一、为什么选Python做Web开发?Python在Web领域的优势很突出:o开发快:Django、Flask这些框架把常用功能都封装好了,不用重复写代码,能快速把想法变成能用的产品o需求多:行业...

图解Python编程:从入门到精通系列教程(附全套速查表)

引言本系列教程展开讲解Python编程语言,Python是一门开源免费、通用型的脚本编程语言,它上手简单,功能强大,它也是互联网最热门的编程语言之一。Python生态丰富,库(模块)极其丰富,这使...

Python 并发编程实战:从基础到实战应用

并发编程是提升Python程序效率的关键技能,尤其在处理多任务场景时作用显著。本文将系统介绍Python中主流的并发实现方式,帮助你根据场景选择最优方案。一、多线程编程(threading)核...

吴恩达亲自授课,适合初学者的Python编程课程上线

吴恩达教授开新课了,还是亲自授课!今天,人工智能著名学者、斯坦福大学教授吴恩达在社交平台X上发帖介绍了一门新课程——AIPythonforBeginners,旨在从头开始讲授Python...

Python GUI 编程:tkinter 初学者入门指南——Ttk 小部件

在本文中,将介绍Tkinter.ttk主题小部件,是常规Tkinter小部件的升级版本。Tkinter有两种小部件:经典小部件、主题小部件。Tkinter于1991年推出了经典小部件,...

Python turtle模块编程实践教程

一、模块概述与核心概念1.1turtle模块简介定义:turtle是Python标准库中的2D绘图模块,基于Logo语言的海龟绘图理念实现。核心原理:坐标系系统:原点(0,0)位于画布中心X轴:向右...

Python 中的asyncio 编程入门示例-1

Python的asyncio库是用于编写并发代码的,它使用async/await语法。它为编写异步程序提供了基础,通过非阻塞调用高效处理I/O密集型操作,适用于涉及网络连接、文件I/O...

30天学会Python,开启编程新世界

在当今这个数字化无处不在的时代,Python凭借其精炼的语法架构、卓越的性能以及多元化的应用领域,稳坐编程语言排行榜的前列。无论是投身于数据分析、人工智能的探索,还是Web开发的构建,亦或是自动化办公...

Python基础知识(IO编程)

1.文件读写读写文件是Python语言最常见的IO操作。通过数据盘读写文件的功能都是由操作系统提供的,读写文件就是请求操作系统打开一个文件对象(通常称为文件描述符),然后,通过操作系统提供的接口从这个...

Python零基础到精通,这8个入门技巧让你少走弯路,7天速通编程!

Python学习就像玩积木,从最基础的块开始,一步步搭建出复杂的作品。我记得刚开始学Python时也是一头雾水,走了不少弯路。现在回头看,其实掌握几个核心概念,就能快速入门这门编程语言。来聊聊怎么用最...

一文带你了解Python Socket 编程

大家好,我是皮皮。前言Socket又称为套接字,它是所有网络通信的基础。网络通信其实就是进程间的通信,Socket主要是使用IP地址,协议,端口号来标识一个进程。端口号的范围为0~65535(用户端口...

Python-面向对象编程入门

面向对象编程是一种非常流行的编程范式(programmingparadigm),所谓编程范式就是程序设计的方法论,简单的说就是程序员对程序的认知和理解以及他们编写代码的方式。类和对象面向对象编程:把...

取消回复欢迎 发表评论: