Python爬虫篇之文本混淆解析(字体反爬)
off999 2024-11-08 12:47 22 浏览 0 评论
前言
相信很多同学在练习Python爬虫项目时遇到过文本混淆,也就是字体反爬。具体情况就是在网页上显示的是正常的数字、单位等信息,但是通过网页解析出来后是一堆乱码,比如某影视网站(相关票房信息被混淆处理了)
字体反爬 是一种具有难度的反爬虫技术,它是通过在网站中使用特殊字体来替换文本内容,使得爬虫无法正确解析其中的内容。字体反爬的原理是将网站中的文本内容转换为特殊的字体格式,然后通过CSS样式来控制字体的显示方式。这种技术的难点在于,爬虫无法直接解析这些特殊格式的字体,导致无法获取其中的文本信息。
字体反爬可以有效地防止爬虫对网站进行爬取,从而保护网站的数据和内容不受到恶意爬取的侵害。大多数影视、房地产、招聘等类型平台习惯采用此技术。
文本混淆简介
简单而言就是利用前端技术干扰,页面可以正常展示,而使用爬虫下载后无法提取正常的数据。
在 CSS3之前,Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face 为网页指定字体,开发者可将心仪的字体文件放在 Web 服务器上,并在CSS 样式中使用它。用户使用浏览器访问 Web应用时,对应的字体会被浏览器下载到用户的计算机上。
注:使用自动化selenium也无法获取正常的数据
某习字体反爬
网页分析
打开网站可以发现,薪酬的字体是乱码
页面处理
1、在页面源代码中搜索font-face关键字,可以发现字体文件在网页源代码中
2、在网络抓包里面进行筛选,可以发现这里面有对应的字体文件加载地址,由后端返回
3、对于字体文件,可以直接使用工具进行解析
工具在线地址:http://font.qqe2.com/
使用方式:
- 下载字体文件到本地目录
- 访问在线工具网站,点击左上角打开,找到本地目录字体文件即可
字体分析
1、正常在网页里面展示的薪酬是:200-250/天,而下载后的页面元素
2、解析的字体文件
3、woff文件转化成xml文件进行分析,通过分析原来是unicode码
逆向结果
关键代码
class GetZhaoPin():
...
def get_font_data(self,ttf):
font_dict = {}
# font = TTFont("file.woff")
font = TTFont(ttf)
cmap = font.get("cmap").getBestCmap()
for k, v in cmap.items():
if v[3:]:
content = "\\u00" + v[3:] if len(v[3:]) == 2 else "\\u" + v[3:]
real_content = content.encode('utf-8').decode('unicode_escape')
k_hex = hex(k)
# 网页返回的字体是以&#x开头 ,换成以这个开头,下面代码就是直接替换
real_k = k_hex.replace("0x", "&#x")
font_dict[real_k] = real_content
return font_dict
...
def main(self):
# 第1步:获取html,且存为html文件以便后面研究使用
ret = self.get_html()
# 第2步:下载html配套的ttf文件
self.get_font(ret)
# 第3步:提取ttf中摄影的数据
font_dict = self.get_font_data('file.woff')
# 第4步:对下载(HTML内容)进行替换
html = self.put_html(font_dict)
# 第5步:使用xpath提取想要的数据
data = self.get_data(html)
print(data)
字体解析模块使用
模块安装
pip install fontTools字体读取
from fontTools.ttLib import TTFont
# 加载字体文件:
font = TTFont('file.woff')
# 转为xml文件:
font.saveXML('file.xml')节点读取
from fontTools.ttLib import TTFont
# 加载字体文件:
font = TTFont('file.woff')
kv = font.keys()
print(kv)字体文件不仅包含字形数据和点信息,还包括字符到字形映射、字体标题、命名和水平指标等,这些信息存在对应的表中:
表 | 作用 |
cmap | 字符到字形映射 |
glyf | 字形数据 |
head | 字体标题 |
hhea | 水平标题 |
hmtx | 水平指标 |
loca | 索引到位置 |
maxp | 最大限度的 |
name | 命名 |
post | 后记 |
获取请求到的字体code和name的对应关系
code_name_map = font_aa.getBestCmap()获取字体坐标信息
font_aa = TTFont('file.woff')
# 获取请求到的字体形状
glyf = font_aa['glyf']
#font['glyf'][字体编码].coordinates
font_aa['glyf']['uni4E94'].coordinates总结
字体反爬技术可以让爬虫无法直接解析网页中的文本内容,进而影响爬虫的正常爬取。这对于开发者来说是一种有效的防御手段,可以保护网站的数据和内容不受到未经授权的恶意抓取。但是,在应对字体反爬技术时,爬虫也可以通过下列方式解决:
1、获取字体文件:当爬虫发现网页中的文本内容被替换成了特殊字体时,可以下载相应的字体文件,并使用专门的工具将该字体文件映射到本地字体文件中,进而能够正确解析该字体格式。
2、破解字体映射:有些字体反爬技术会采用自定义的映射表来替换文本内容,爬虫可以通过破解该映射表,获取相应的真实文本内容,进而绕过字体反爬的限制。
3、转换字符编码:如果字体文件被加密或加入了特殊处理,爬虫可以通过转换字符编码的方式,解析字体反爬中使用的特殊字符,从而获取相应的网页内容。
综上所述,尽管字体反爬技术可以对爬虫造成一定的防御,但是爬虫仍可以通过一些技术手段来解决这个问题,因此开发者需要根据具体情况来选择不同的对策手段。
声明:本文章所有演示内容仅供学习交流使用,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系作者立即删除!
相关推荐
- 阿里旺旺手机客户端(阿里旺旺手机app)
-
手机淘宝的旺旺在打开商品后,会看到左下角有个旺旺的图标,点击就可以联系了。 阿里旺旺是将原先的淘宝旺旺与阿里巴巴贸易通整合在一起的一个新品牌。它是淘宝和阿里巴巴为商人量身定做的免费网上商务沟通软件,...
- 最纯净的pe装机工具(pe工具哪个纯净)
-
U盘装系统步骤:1.制作U盘启动盘。这里推荐大白菜U盘启动盘制作工具,在网上一搜便是。2.U盘启动盘做好了,我们还需要一个GHOST文件,可以从网上下载一个ghost版的XP/WIN7/WIN8系统,...
- 装一个erp系统多少钱(wms仓库管理软件)
-
现在主流有客户端ERP和云端ERP两种客户端通常一次买断,价格在万元左右,但是还有隐性费用,你需要支付服务器、数据管理员,此外如果系统需要更新维护,你还需要支付另外一笔不菲的费用。云端ERP:优势...
- cad2014序列号和密钥永久(autocad2014序列号和密钥)
-
1在cad2014中修改标注样式后,需要将其保存2单击“样式管理器”按钮,在弹出的窗口中选择修改后的标注样式,然后单击“设置为当前”按钮,再单击“保存当前样式”按钮,将其保存为新的样式名称3为了...
- qq修改密保手机号(qq修改密保手机号是什么意思)
-
QQ更改绑定的手机号码操作步骤如下:1、打开手机主界面,找到“QQ”软件点击打开。2、输入正确的QQ账户和密码登录到qq主界面。3、点击左上角的头像“图片”,进入到个人中心界面。4、进入到个人中心界面...
- dell笔记本客服电话(dell笔记本客服电话人工服务)
-
戴尔中国的官方网站http://www.dell.com/zh-cn。通过这个网站购买的都没有问题;有问题也可以进入官网联系售后客服,也可以拔打dell电脑说明书上的售后热线,都可以为你解决的。还是建...
- 联想乐商店app官方下载(联想乐商店在哪下载)
-
您好!很遗憾!若是您的手机联想乐商店和联想游戏中心只能有流量,建议您核实是否乐安全有限制wifi上网,核实您所使用的wifi是否本身有限制。若还是无效,可清除缓存数据;备份资料恢复出厂设置尝试。欢迎您...
- 不用拉网线的路由器是真的吗
-
是真的不插卡不拉线有线就有网,这11个字其实就涵盖了无线路由器的特点,无线路由器免插卡、不用拉网线,完全摆脱了之前家用路由器和网线捆绑的模式,有电就有网,其实说的就是无线路由器的使用操作简单,通电就可...
- u盘检测软件下载(u盘测试软件)
-
1、u盘芯片检测工具(ChipEasy)可以查看USB设备PID、VID、SN、制造商、产品名等;2、查看USB设备主控芯片信息、闪存芯片信息、固件信息、电流控制3、SSD型号...
- 电脑现在什么系统最好(电脑现在用什么系统好)
-
WINXP好用,但过时了。VISTA不好用,没推开就夭折了。WIN8/8.1是针对触模屏设计的,如果你用的不是触摸屏平板电脑是普通电脑,使WIN8/8.1总觉着很蹩扭。新出的WIN10,功能...
- 账号怎么注册(steam账号怎么注册)
-
如果注册是qq账号【qq号码的申请办法】【1】双击qq登陆界面,在qq帐号填写空格的后面你可以看见:[申请帐号];【2】点击[申请帐号]进入,就可以在网上免费申请号码了;【3】进入www.qq.com...
- tmp文件是什么意思(tmp文件有什么用)
-
在系统C:\Windows\Temp文件夹中,我们经常会发现一些后缀名为TMP的文件,在该文件夹中的这些文件其实都是临时文件。它们可能是系统被误关机,或者其他程序没有删除而生的。而且在该文件夹中还有其...
- 怎么给u盘格式化(怎么给u盘格式化成FAT32)
-
u盘插入电脑,等待桌面弹出u盘图标。打开“计算机”。左键选中u盘,单击右键,在弹出的菜单中,点击“格式化”。点击“开始”,点击“确定”即可。格式化u盘详细步骤1、找到U盘盘符,鼠标右键点击,弹出菜单中...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
