当前位置：网站首页 > 技术资源 > 正文

细说小白学python爬虫过程中常见的反爬措施及解决思路(干货)

off999 2024-10-04 18:52 45 浏览 0 评论

最近有很多朋友和我讨论python爬虫遇到的反爬措施及解决办法，今天我就给大家分享一下自己在爬虫过程中遇到的坑及解决思路，希望对大家有所帮助。

?看不见的反爬措施

一是加header头部信息：

什么是header头？

以火狐浏览器为例，右键—查看元素—进入网络界面，然后输入https://www.baidu.com进入百度主页：

红框内的部分就是该次请求的header头，服务器可以根据header头判断该次请求是由哪种浏览器（User-Agent）发起、访问的目标链接是从哪个网页跳转过来的（Referer）以及服务器地址（Host）。

1.加User-Agent值：

如果不加header头，部分网站服务器判断不到用户的访问来源，所以会返回一个404错误来告知你是一个爬虫，拒绝访问，解决办法如下：

这样服务器就会把用户当做浏览器了。建议每次爬虫都把User-Agnet头加上，起码是对人家网站的尊重

2.加Referer值

这类反爬网站也很常见，例如美团，仅仅加User-Agnet还是返回错误信息，这时就要把Referer值也加到头部信息中：

这样就会返回正常网页了。

3.加Host值

根据同源地址判断用户是否为爬虫，解决办法为：

4.加Accept值

之前遇到过这种网站，我加了一圈header头部信息才成功，最后发现是需要加Accept值，这类反爬措施的解决办法为：

关于header头的反爬，建议在加上User-Agent失败之后，就把所有头部信息加上，最后用排除法选出到底是哪个值。

二是限制IP的请求数量：

这种就更常见了，大部分网站都有此类反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。此种情况有两种解决办法：

①降低爬虫请求速率，但是会降低效率；

②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。
添加格式为：

三是Ajax动态请求加载：
这类一般是动态网页，无法直接找到数据接口，以某易新闻网站为例：

我想爬取该网页内的新闻图片，发现它的网页url一直不变，但是下拉网页的时候会一直加载图片，那么我们该怎么办呢？

首先按照开头方式打开流量分析工具

点击左上角“垃圾桶”图标清空缓存，然后下拉新闻网页：

会出现一大堆东西，但是不用慌，我们可以根据类型去寻找，一般图片信息肯定实在html、js或json格式的文件中，一个一个点进去看看，很快就找到了结果：

结果中把callback去掉之后就是个json文件，它的url为：

红线处为变量，02代表第2页，这样就找到图片接口啦。

看的见的反扒措施

一是登录才有数据，比如某查查：

这种一般有三种解决办法，一是requests模拟登录，但是会有参数加密的问题和验证码的问题，有点难；二是selenium模拟登录，要解决验证码的问题；三是手动登录后获取cookie，在requests中加入cookie，这种方法比较简单，但是受cookie有效期的限制，要经常更换cookie。

关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

我用眼都很难瞅出来，程序就更难说了，索性直接用打码网站，价格不贵，准确率又低。

二是限制网页返回数据条数：

例如微博评论，最多只能返回50页的评论数据，这种反扒措施暂时没有好的解决办法，除非能找到特殊接口。

三是多次验证：

例如12306网站，用requests实现自动抢票时，浏览器会和服务器进行多次交互验证，有的验证虽然不返回任何数据，但是还必须要有，否则下一个url的请求就会出错。

四是网站数据加密：

也就是说网站服务器返回的数据经过某种加密算法进行加密，这个时候你就要学习前端知识了，因为加密方式一般都隐藏在JavaScript代码中，如果你学会这一技能，基本可以应聘爬虫工程师的岗位了。

五是APP数据：

没有网页数据，例如二手交易平台某鱼

爬这类数据一般有两种方法：一是边爬边处理，即用appium模拟点击滑动手机界面，然后用mitmdump在后端监测并保存数据，这种方法比较简单；二是做逆向分析，这个过程是很难的，目前这部分知识小编也正在学习中，希望有机会能和大家一起交流。

以上都是我在爬虫实践中遇到的一些反爬措施，希望能对大家的爬虫学习之路起到抛砖引玉的作用。

精彩回顾：
你是如何用python写下第一个爬虫的？

用python制作全国身份证号验证及查询系统

北京的房价到底有多贵？我爬取了3万多条数据得出分析结果

python取反

上一篇：Python常见反爬与反反爬（关于反爬虫,看这一篇就够了）
下一篇：Python实用技巧——实现字符串反向输出的5种方法

细说小白学python爬虫过程中常见的反爬措施及解决思路(干货)

?看不见的反爬措施

看的见的反扒措施

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

python入门到脱坑输入与输出—str()函数

16949认证费用是多少（16949审核员太难考了）

linux软件（linux软件图标）

Python三目运算基础与进阶_python三目运算符判断三个变量

windows7旗舰版多少钱（win7旗舰版要多少钱）

细说小白学python爬虫过程中常见的反爬措施及解决思路(干货)

?看不见的反爬措施

看的见的反扒措施

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

python入门到脱坑 输入与输出—str()函数

16949认证费用是多少（16949审核员太难考了）

linux软件（linux软件图标）

Python三目运算基础与进阶_python三目运算符判断三个变量

windows7旗舰版多少钱（win7旗舰版要多少钱）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数