手把手教你用Python搭建IP代理池,轻松破解请求频率限制反爬虫
off999 2024-11-24 20:04 21 浏览 0 评论
我们所写的爬虫,它对服务器发出的网络请求频率要比正常用户的高的多,从而开发者可以将请求频率过高的用户视为爬虫程序,从而来限制爬虫程序。
今天志斌就来给大家分享一下,如何用Python搭建一个IP代理池,来破解服务器通过对用户请求频率进行限制的反爬虫。
01
原理
因为客户端的IP地址是唯一的,所以开发者便将IP地址作为客户端的身份标识。
服务器可以根据客户端的IP的访问次数来标识记录,从而计算出它的请求频率。然后,对于请求频率过高的客户端进行反爬虫限制。
02
破解
其实破解请求频率限制反爬虫是十分简单的,因为Requests库中就有一个proxies参数,就是专门为使用IP来准备的,具体使用方法如下:
import requests
proxies = {
"http": "http://10.10.1.10:3128",
"https": "https://10.10.1.10:1080",
}
requests.get("http://example.org", proxies=proxies)
03
搭建IP代理池
搭建一个IP代理池分为三个模块,分别是爬取模块、检测模块、存储模块。下面让我们来看看这三个模块要怎么写吧。
01
爬取模块
我们此次是在百度上搜索的一个免费的IP代理网站对其代理IP进行爬取。
我们打开开发者模式,然后输入对网页进行观察,我们发现数据存储在源网页中。
既然我们已经发现数据的存储位置和存储形式了,那么就可以发起请求,提取数据了,代码如下:
import requests
import re
headers = {
'Connection': 'keep-alive',
'sec-ch-ua': '"Chromium";v="92", " Not A;Brand";v="99", "Google Chrome";v="92"',
'sec-ch-ua-mobile': '?0',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Sec-Fetch-Site': 'same-origin',
'Sec-Fetch-Mode': 'navigate',
'Sec-Fetch-User': '?1',
'Sec-Fetch-Dest': 'document',
'Referer': 'https://www.kuaidaili.com/free/inha/1/',
'Accept-Language': 'zh-CN,zh;q=0.9',
}
for page in range(1,50):
response = requests.get(f'https://www.kuaidaili.com/free/inha/{page}/', headers=headers, cookies=cookies)
ip_list = re.findall('data-title="IP">(.*?)</td>',response.text)
02
检测模块
因为我们是爬取的免费的IP,所以我们要对其进行检测,看看是否失效了,毕竟便宜没好货,好货不便宜么~ 检测代码如下:
list = []
for ip in ip_list:
try:
response = requests.get('https://www.baidu.com', proxies=ip, timeout=2)
if response.status_code == 200:
list.append(ip)
except:
pass
else:
print(ip, '检测通过')
03
存储模块
我这里是将检测出来可以使用的IP代理存到了csv文件中去,大家也可以尝试使用其他类型的存储,代码如下:
import csv
with open('ip.csv','a',newline='') as f:
writer = csv.writer(f)
writer.writerow(list)
03
小结
1. 本文详细介绍了如何破解请求频率限制的反爬虫,并教大家搭建一个自己的IP代理池。
2. 使用代理IP来进行爬虫是当前一种非常流行的方式,因为每个用户端的IP是唯一的,一旦被认为是爬虫给限制或者是封禁了,那么对于用户来说会造成很大的损失。
3. 免费的IP代理质量不如付费的,如果有大量的需求还是需要购买一下专业的。
4. 本文仅供学习参考,不做它用。
相关推荐
- windows7屏幕亮度怎么调整(windows7屏幕亮度调节)
-
windows7屏幕亮度调节方法如下1.鼠标右键桌面空白处,在弹出的菜单中选择【个性化】。2.进入属性界面,选择左下角的【显示】选项。3.在弹出的显示页面右侧点击【调整亮度】。4.进入调整亮度页面,下...
- xpsp2系统下载地址(windows xp sp2 iso)
-
WindowsXPProfessionalSP2产品密钥是微软公司的一个软件密钥,用于授权用户使用该软件的完整功能。它通常与产品许可证一起使用,用于确保软件的合法性和安全性。使用Windows...
- 开机microsoft登录不上
-
1、系统问题:如果系统版本比较低,可能会由于旧系统存在某些BUG未修复或业务功能未优化,使手机在使用APP等应用过程中出现卡的情况,建议更新到最新的ios系统使用。2、内存问题:如果内存比较小,在运行...
- 如何取消win10开机密码(如何取消win10开机密码账户登录)
-
取消Windows10的开机密码可以通过以下方法进行操作:方法一:使用用户账户设置1.打开“开始”菜单,点击“设置”图标。2.在设置窗口中,点击“帐户”选项。3.在左侧菜单中,选择“登录选项”。4....
- 免费解压文件的软件(免费解压文件的软件电脑)
-
1、快压快压(kuaizip)是一款非常流氓的压缩和解压缩软件,一款免费、方便、快速的压缩和解压缩利器,拥有一流的压缩技术,是国内第一款具备自主压缩格式的软件。快压自身的压缩格式KZ具有超大的压缩比和...
- 无线usb网卡插上去没有反应(为什么usb无线网卡插上去没反应)
-
当出现电脑无法识别无线网卡的情况时,是简单的方法就是将无线USB网卡插到电脑后置USB接口上,以保证供电的充足。当然如果是偶然出现无法识别的情况,建议重启一下电脑试试。启用USB无线网卡驱动:右击“计...
- 怎么登录自己家的路由器(怎么登录自己家的路由器账号)
-
登陆家里的路由器方法:1、先查看ip,方法:win+r---输入:cmd---在再黑白界面输入:ipconfig,按回车。2、根据网关查看路由器地址。若网关是:192.168.2.1,那么路由器的ip...
- linux操作系统安装步骤(linux系统详细安装步骤)
-
1.选择“中文(简体)”,然后点击“安装Ubuntu”。2.点击“继续”。3.然后点击“现在安装”。4.选择地址的时区,然后点击“继续”。5.选择“汉语”,然后点击“继续”。6.输入用户的名字。7.设...
- 苹果手机怎么设置定时关机(苹果手机怎么设置定时关机重启)
-
苹果手机可以设置定时关机,但无法设置定时开机。具体操作步骤如下:进入苹果手机自带的时钟。点击屏幕有下角的计时器。点击画面中间的计时结束启用选项。选择画面最下方的“停止播放”。之后再点击画面右上角的设定...
- 无线网wifi密码忘记了怎么办
-
忘记wifi密码后,可以在路由器后台查看。1.在浏览器的地址栏中,输入路由器上的管理地址,进入后台界面;2.在后台界面里,找到“无线设置”选项,点击它;3.在新界面里,点击wifi密码右侧的小眼睛图标...
-
- win7系统无法正常开机怎么办
-
解决方法如下1,出现无法启动的原因,要注意是开机启动不了,还是在进度条那里缓冲,过不去.如果是开机启动不了,那就要看一下内存条、电源等有没有问题?如果是在进度条那里,那就看下方的三种方法。2,第一种方法:1,开机按F8键.2,选择最近一次的...
-
2025-11-16 07:51 off999
- 现在装win7还需要激活吗(现在安装win7旗舰版还需密钥吗)
-
要激活 Windows7如果是预装在计算机中的,买来之后便不用激活,这里预装指的是在厂商那里。正版的Windows7安装到计算机中,有三十天的试用期,若要永久使用,就要使...
- 2025显卡性能排行榜天梯图(2020年显卡性能天梯图)
-
MacBookPro的显卡水平处于笔记本独立显卡Nvidia920M和940M之间。属于低端显卡级,玩玩LOL啥的还可以,其他的大型游戏就算了,MAC不适合打游戏。MacBookPro搭载的8代...
- 网络对时服务器(对时服务器端口)
-
对等网是指在网络中所有计算机的地位都是平等的,既是服务器也是客户机,所有计算机中安装的都是相同的单机操作系统如Windows98/XP/Vista/7等,它可以设置共享资源,但受连接数限制,一般是只允...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
