百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python爬虫篇之文本混淆解析(字体反爬)

off999 2024-11-08 12:47 26 浏览 0 评论

前言

相信很多同学在练习Python爬虫项目时遇到过文本混淆,也就是字体反爬。具体情况就是在网页上显示的是正常的数字、单位等信息,但是通过网页解析出来后是一堆乱码,比如某影视网站(相关票房信息被混淆处理了)

字体反爬 是一种具有难度的反爬虫技术,它是通过在网站中使用特殊字体来替换文本内容,使得爬虫无法正确解析其中的内容。字体反爬的原理是将网站中的文本内容转换为特殊的字体格式,然后通过CSS样式来控制字体的显示方式。这种技术的难点在于,爬虫无法直接解析这些特殊格式的字体,导致无法获取其中的文本信息。

字体反爬可以有效地防止爬虫对网站进行爬取,从而保护网站的数据和内容不受到恶意爬取的侵害。大多数影视、房地产、招聘等类型平台习惯采用此技术。

文本混淆简介

简单而言就是利用前端技术干扰,页面可以正常展示,而使用爬虫下载后无法提取正常的数据。

在 CSS3之前,Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face 为网页指定字体,开发者可将心仪的字体文件放在 Web 服务器上,并在CSS 样式中使用它。用户使用浏览器访问 Web应用时,对应的字体会被浏览器下载到用户的计算机上。

注:使用自动化selenium也无法获取正常的数据

某习字体反爬

网页分析

打开网站可以发现,薪酬的字体是乱码

页面处理

1、在页面源代码中搜索font-face关键字,可以发现字体文件在网页源代码中

2、在网络抓包里面进行筛选,可以发现这里面有对应的字体文件加载地址,由后端返回

3、对于字体文件,可以直接使用工具进行解析

工具在线地址:http://font.qqe2.com/

使用方式:

  • 下载字体文件到本地目录
  • 访问在线工具网站,点击左上角打开,找到本地目录字体文件即可

字体分析

1、正常在网页里面展示的薪酬是:200-250/天,而下载后的页面元素

2、解析的字体文件

3、woff文件转化成xml文件进行分析,通过分析原来是unicode码


逆向结果


关键代码

class GetZhaoPin():

		...

    def get_font_data(self,ttf):
        font_dict = {}
        # font = TTFont("file.woff")
        font = TTFont(ttf)
        cmap = font.get("cmap").getBestCmap()
        for k, v in cmap.items():
            if v[3:]:
                content = "\\u00" + v[3:] if len(v[3:]) == 2 else "\\u" + v[3:]
                real_content = content.encode('utf-8').decode('unicode_escape')
                k_hex = hex(k)
                # 网页返回的字体是以&#x开头  ,换成以这个开头,下面代码就是直接替换
                real_k = k_hex.replace("0x", "&#x")
                font_dict[real_k] = real_content
        return font_dict
    ...

    def main(self):
        # 第1步:获取html,且存为html文件以便后面研究使用
        ret = self.get_html()
        # 第2步:下载html配套的ttf文件
        self.get_font(ret)
        # 第3步:提取ttf中摄影的数据
        font_dict = self.get_font_data('file.woff')
        # 第4步:对下载(HTML内容)进行替换
        html = self.put_html(font_dict)
        # 第5步:使用xpath提取想要的数据
        data = self.get_data(html)
        print(data)


字体解析模块使用

模块安装

pip install fontTools

字体读取

from fontTools.ttLib import TTFont
# 加载字体文件:
font = TTFont('file.woff')
# 转为xml文件:
font.saveXML('file.xml')

节点读取

from fontTools.ttLib import TTFont
# 加载字体文件:
font = TTFont('file.woff')
kv = font.keys()
print(kv)

字体文件不仅包含字形数据和点信息,还包括字符到字形映射、字体标题、命名和水平指标等,这些信息存在对应的表中:

作用

cmap

字符到字形映射

glyf

字形数据

head

字体标题

hhea

水平标题

hmtx

水平指标

loca

索引到位置

maxp

最大限度的

name

命名

post

后记

获取请求到的字体code和name的对应关系

code_name_map = font_aa.getBestCmap()

获取字体坐标信息

font_aa = TTFont('file.woff')
# 获取请求到的字体形状
glyf = font_aa['glyf']
#font['glyf'][字体编码].coordinates
font_aa['glyf']['uni4E94'].coordinates


总结

字体反爬技术可以让爬虫无法直接解析网页中的文本内容,进而影响爬虫的正常爬取。这对于开发者来说是一种有效的防御手段,可以保护网站的数据和内容不受到未经授权的恶意抓取。但是,在应对字体反爬技术时,爬虫也可以通过下列方式解决:

1、获取字体文件:当爬虫发现网页中的文本内容被替换成了特殊字体时,可以下载相应的字体文件,并使用专门的工具将该字体文件映射到本地字体文件中,进而能够正确解析该字体格式。

2、破解字体映射:有些字体反爬技术会采用自定义的映射表来替换文本内容,爬虫可以通过破解该映射表,获取相应的真实文本内容,进而绕过字体反爬的限制。

3、转换字符编码:如果字体文件被加密或加入了特殊处理,爬虫可以通过转换字符编码的方式,解析字体反爬中使用的特殊字符,从而获取相应的网页内容。

综上所述,尽管字体反爬技术可以对爬虫造成一定的防御,但是爬虫仍可以通过一些技术手段来解决这个问题,因此开发者需要根据具体情况来选择不同的对策手段。

声明:本文章所有演示内容仅供学习交流使用,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系作者立即删除!

相关推荐

ps软件官方免费下载电脑版免费

1:点击下载好的安装包先进行解压,然后点击“Photoshop_CS6_CHS_lite.exe”文件2:在弹开的界面中点击“自定义安装”,这里小编说明一下,如果用户选择“快速安装”的话,那么软件的安...

传奇盒子平台大全(传奇盒子赚钱)

在996传奇盒子中,会员玩家可以在“我的游戏”中通过“云玩”进入之前体验过的传奇游戏,开启挂机模式后,就能在“云多开”系统里观察到自己的云设备和正在进行云游戏状态的传奇游戏,如果点进手机后台,还能看到...

pdf查看软件(查看pdf格式的软件)

pdf当然可以有查找功能:1、第一步:首先我们要使用WPSOffice打开PDF文档。2、第二步:我们需要依次点击“开始”--->“查找”(或使用快捷键“Ctrl+F”)。3、第三步:我们在查...

中国象棋下载安装(下载中国象棋官方版)

不用刻意下载个中国象棋APP,只需要下载一个QQ游戏,里头就有中国象棋玩了,里头点开后,自动下载,还可以连接其他玩家,一起玩,切磋棋艺。你这问题太模糊了。。。是你有一个象棋游戏,想放到桌面上,双击就可...

手机bt下载软件哪个好(手机有什么下载bt的软件)

磁力下载app推荐黑科技APP,这个好用黑科下载器APP也是一款功能强大且使用的下载类工具应用,它支持磁力以及种子文件的下载。还可以把下载的的文件转存到云盘,并支持在线的云播预览功能,无需等待能直接边...

狂野飙车9下载(狂野飙车9下载入口)

您可以在AppStore搜索“狂野飙车9”或者直接使用Safari等浏览器搜索“狂野飙车9官方下载”,进入官网下载页面,点击下载按钮并根据提示进行下载安装即可。在下载前请确保您的苹果设备已连接稳定...

免费相册视频制作软件(怎么把拍的照片做成视频)
免费相册视频制作软件(怎么把拍的照片做成视频)

电脑端1.会声会影会声会影上手简单而且做出的相册的效果也很不错,很适合新手使用,x7以前的版本都是可以自己去免费用的。2.premiere(pr)pr是一款比较专业的视频剪辑制作软件,用它来做电子相册也是很不错的,做出的效果很高大上,如果只...

2026-01-17 21:43 off999

图片文字修改神器免费(手机无痕修改图片文字软件)

首先区分是完整图片导入还是ai软件自己编写的文字,如果导入的图片无法修改,只能像ps一样去修图,如果是软件编写的,无法选取先要解锁,方法:上面任务栏对象-选择全部解锁。然后修改。修改方法:如果对方编组...

开户最忌三个证券公司(随便哪个证券公司开户都一样吗)

在不同的证券公司开户,确实存在一些区别。首先,不同的证券公司提供的交易品种和交易费用可能不同,有些公司可能提供更广泛的投资选择,而有些公司则可能提供更低的佣金率,这直接影响到您的投资成本和收益。其次,...

农行手机银行app下载(中国农业银行App下载)

自己下载的农行手机银行是能转账的,只是额度可能会要低一些,比如一类卡,在农行网点注册下载并开通手机银行,一天转账的额度是有十万,而自己下载注册开通的手机银行额度则只有5万,自己是可以下载农行手机银行是...

下载本机手机管家(手机管家华为专用版下载)

可以在手机的应用商店中下载就可以了你看看有没有办法把他弄到桌面上,比如刷新桌面,如果影响使用的话,建议恢复出厂设置吧,我以前也出现过这种情况,刷机之后就好了电脑管家目前是不支持手机终端登录的所以无法...

街机游戏平台(街机游戏平台官网)
  • 街机游戏平台(街机游戏平台官网)
  • 街机游戏平台(街机游戏平台官网)
  • 街机游戏平台(街机游戏平台官网)
  • 街机游戏平台(街机游戏平台官网)
侠盗飞车下载(侠盗飞车下载手机版)
  • 侠盗飞车下载(侠盗飞车下载手机版)
  • 侠盗飞车下载(侠盗飞车下载手机版)
  • 侠盗飞车下载(侠盗飞车下载手机版)
  • 侠盗飞车下载(侠盗飞车下载手机版)
广州疫情最新消息(广州疫情最新消息通知)

 当然可以,深圳去广州的交通发达也便捷,可以乘坐大巴车、火车、高铁、自驾车均可到达广州的各大客运站、火车站、城市地标,到站后还可以乘坐公交车、地铁、打车到你想去的目的地。 深圳...

大型网络游戏排行榜前十(目前大型网络游戏排行)

最热门的有很多的,每个人的标准都不一样的,但是只要自己喜欢就好,无有传齐所有职业都有四个被动技能,游侠的四个技能分别是:游猎者、梦魇、鹰眼术和原动力。作用分别是对减速单位额外造成伤害,暴击是额外提高伤...

取消回复欢迎 发表评论: