百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python常见反爬与反反爬(关于反爬虫,看这一篇就够了)

off999 2024-10-04 18:52 17 浏览 0 评论



一. request请求头限制

私信小编01即可获取大量Python学习资料

accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
accept-encoding: gzip, deflate, br
accept-language: zh-CN,zh;q=0.9
cache-control: max-age=0
cookie: tk_trace=1; cna=7wYkFzKHTRkCAWVESJJhr0Rk; t=4e6cd6cf819ddd364dd4523f505baa2f; _tb_token_=5554b3163eaef; cookie2=12300b27c30b8ed3f53ba4ad905804d0; dnk=%5Cu98CE%5Cu98DE%5Cu6C99199466; uc1=existShop=false&cookie21=UtASsssmeW6lpyd%2BB%2B3t&pas=0&cookie16=W5iHLLyFPlMGbLDwA%2BdvAGZqLg%3D%3D&cookie14=UoTUMtddLcASgQ%3D%3D&cookie15=UtASsssmOIJ0bQ%3D%3D; uc3=nk2=1CBFSnyurVPg%2Fx88&vt3=F8dBxGXPJyCtMQq2hDQ%3D&lg2=WqG3DMC9VAQiUQ%3D%3D&id2=UojWlnwldUEcIg%3D%3D; tracknick=%5Cu98CE%5Cu98DE%5Cu6C99199466; lid=%E9%A3%8E%E9%A3%9E%E6%B2%99199466; uc4=id4=0%40UOBStC8CkE5rQcpcdQo%2BD5R3J0dZ&nk4=0%401vFhsjjbOG%2F8CsB8S59tmtoC%2BwWXdyU%3D; lgc=%5Cu98CE%5Cu98DE%5Cu6C99199466; login=true; csg=b7e69528; enc=Oo1TNahCShvmFW61yPFP4GttpSDCrFL4hkqM7h3Adt3O013%2Ffmx4eeJ02je0Few2er4Lg75OjFjZz%2BC1Ydq7cA%3D%3D; _med=dw:1920&dh:1080&pw:1920&ph:1080&ist:0; isg=BL29Rz1Mv2lkTxsCtqe23fOvzBm3WvGsmuhil38B2pRCttroRqqofF-nZOrwNglk; l=eBS3_2uPQGGMVdaxBO5Z-urza779VQOffsPzaNbMiIHca1zRGFOgeNQcPN8pPdtjgtfYreKrpPytWReyJqzLROkDBeYC_EaL9cJ9-
referer: https://www.tmall.com/?spm=a222t.7794920.a2226mz.1.655439edMakNq1
sec-fetch-dest: document
sec-fetch-mode: navigate
sec-fetch-site: same-site
sec-fetch-user: ?1
upgrade-insecure-requests: 1
user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36

这其中的UA与Cookie是常见的反爬,可以使用第三方库 fake_useragent.UserAgent随机生成UA以参数形式加入requests和scrapy等常见爬虫库框架中。

其中,针对cookie反爬可以分一下几种情况:

  • 开发者工具获取cookie值,此时该值恒定不变
  • cookie之中存再动态更改的值,如:cookie: tk_trace=1; cna=7wYkFzKHTRkCAWVESJJhr0Rk; t=1588996536;常见动态值包括时间戳,时间戳加恒定值,时间戳加密,js加密随机数,js加密指定区间内的随机数等
  • 服务端set_cookie给到客户端,此时可以通过登录接口或需求数据接口前一页获取相应cookie,处理后在请求数据

referer参数反爬,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器该网页是从哪个页面链接过来的,服务器因此可以获得一些信息用于处理。此时服务端可能会做防外链确认,因此需要加上该参数到headers中。

二. IP地址反爬

网站针对访问者的IP监控,出现异常(如:同一时间内大量访问),此时将IP录入黑名单设置时间封禁,解决办法可以自己尝试免费代理IP,或者第三方IP代理平台,也可以动手自己搭建IP代理池(成本较大)。

三. AJAX异步数据加载

  • 通过异步方式延迟数据读取,或者重定向到虚拟URL隐藏真实数据,此时可以通过开发者工具或抓包工具(fildder)检查数据流量
  • 这种请求一般会加上发生重定向的接口响应Cookie或者首页html页面内的指定标签value构建cookie

四. 验证码限制

常见验证码有数字字母识别,数字逻辑运算,复杂的有滑块滑动,图形文字识别,简单的识别可以采用python第三方库

pillow ,pytesseract 或者机器识别,也可以直接入第三方打码平台。

五。JS反爬

js反爬是最为复杂且方式多样的,通过js脚本改变每次请求的参数,也就是每一次爬取数据都是在变,或者数据有js加密

相关推荐

SPC相关的计算用excel和python实现【源码下载】

做SPC分析涉及到很多计算,比如CPK、PPK、概率图、PPM等等,网上很多公式,但具体实现却不是那么容易的。我们整理了这些用excel和python实现的代码。包括但不限于以下的内容:SPC分析中的...

Python学不会来打我(34)python函数爬取百度图片_附源码

随着人工智能和大数据的发展,图像数据的获取变得越来越重要。作为Python初学者,掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。本文将手把手教你使用Python函数编写一个简单的百度图片...

django python数据中心、客户、机柜、设备资源管理平台源码分享

先转发后关注,私信“资源”即可免费获取源码下载链接!本项目一个开源的倾向于数据中心运营商而开发的,拥有数据中心、客户、机柜、设备、跳线、物品、测试、文档等一些列模块的资源管理平台,解决各类资源集中管理...

熬夜也值得学习练手的108个Python项目(附源码),太实用了!

现在学编程的人越来越多,Python因为简单好上手、功能又强大,成了很多人的首选。不管是做数据分析、人工智能,还是写网络程序、自动化脚本,Python都能派上用场。而且它诞生的时间比网页还早,作为...

这五个办公室常用自动化工具python源码,复制代码就能用

办公室自动化现在能看这文章的恐怕大部分都是办公室久坐工作者,很多都有腰肌劳损、肩周炎等职业病,难道就不能有个工具缓解一下工作量吗?那么恭喜你点进了这篇文章,这篇文章将使用python直接实现五个常...

将python源代码封装成window可执行程序教程

将python源代码封装成window可执行程序教程点击键盘win+r打开运行框在运行框中输入cmd,进入到命令行。在命令行中输入piplist去查看当前电脑中所有的库检查是否有pyinstall...

Python 爬虫如何爬取网页源码?(爬虫获取网页源代码)

下面教大家用几行代码轻松爬取百度首页源码。什么是urllib?urllib库是Python内置的HTTP请求库,它可以看做是处理URL的组件集合。urllib库包含了四大模块,具体如下:urllib....

Python RPC 之 Thrift(python是做什么的)

thrift-0.12.0python3.4.3Thrift简介:Thrift是一款高性能、开源的RPC框架,产自Facebook后贡献给了Apache,Thrift囊括了整个RP...

用Python编写FPGA以太网MAC(附源码下载方式)

来源:EETOP作者:ccpp123略作了解后发现,MyHDL不是高层次综合,它实际上是用Python的一些功能实现了一个Verilog仿真器,能对用Python写的仿Verilog语言进行仿...

python爬虫常用工具库总结(python爬虫工具下载)

说起爬虫,大家可能第一时间想到的是python,今天就简单为大家介绍下pyhton常用的一些库。请求库:实现基础Http操作urllib:python内置基本库,实现了一系列用于操作url的功能。...

手把手教你使用scrapy框架来爬取北京新发地价格行情(理论篇)

来源:Python爬虫与数据挖掘作者:霖hero大家好!我是霖hero。上个月的时候,我写了一篇关于IP代理的文章,手把手教你使用XPath爬取免费代理IP,今天在这里分享我的第二篇文章,希望大家可以...

2025年Python爬虫学习路线:第1阶段 爬虫基础入门开始

这个阶段的目标是让你熟悉Python的基础知识、了解HTTP请求和HTML是如何工作的,并最终完成你的第一个爬虫小项目——抓取名言!按照计划,我们首先要打好Python基础。Python就像是我们要...

如何入门 Python 爬虫?(python零基础爬虫)

1.很多人一上来就要爬虫,其实没有弄明白要用爬虫做什么,最后学完了却用不上。大多数人其实是不需要去学习爬虫的,因为工作所在的公司里有自己的数据库,里面就有数据来帮助你完成业务分析。什么时候要用到爬虫呢...

突破爬虫瓶颈:Python爬虫核心能力提升与案例实操

技术控必看!Python爬虫高手进阶全攻略,解锁数据处理高阶玩法在数字化时代,Python爬虫早已成为数据探索者手中的得力工具。从基础的网页抓取到复杂的数据处理,每一次技术升级都能带来新的突破。本文将...

网络爬虫开源框架(网络爬虫的框架)

目前开源爬虫下载框架是百花齐放,各个编程语言都有,以下主要介绍其中重要的几个:1)python:scrapy,pyspider,gcrawler2)Java:webmagic,WebCollector...

取消回复欢迎 发表评论: