百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python爬虫篇之文本混淆解析(字体反爬)

off999 2024-11-08 12:47 27 浏览 0 评论

前言

相信很多同学在练习Python爬虫项目时遇到过文本混淆,也就是字体反爬。具体情况就是在网页上显示的是正常的数字、单位等信息,但是通过网页解析出来后是一堆乱码,比如某影视网站(相关票房信息被混淆处理了)

字体反爬 是一种具有难度的反爬虫技术,它是通过在网站中使用特殊字体来替换文本内容,使得爬虫无法正确解析其中的内容。字体反爬的原理是将网站中的文本内容转换为特殊的字体格式,然后通过CSS样式来控制字体的显示方式。这种技术的难点在于,爬虫无法直接解析这些特殊格式的字体,导致无法获取其中的文本信息。

字体反爬可以有效地防止爬虫对网站进行爬取,从而保护网站的数据和内容不受到恶意爬取的侵害。大多数影视、房地产、招聘等类型平台习惯采用此技术。

文本混淆简介

简单而言就是利用前端技术干扰,页面可以正常展示,而使用爬虫下载后无法提取正常的数据。

在 CSS3之前,Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face 为网页指定字体,开发者可将心仪的字体文件放在 Web 服务器上,并在CSS 样式中使用它。用户使用浏览器访问 Web应用时,对应的字体会被浏览器下载到用户的计算机上。

注:使用自动化selenium也无法获取正常的数据

某习字体反爬

网页分析

打开网站可以发现,薪酬的字体是乱码

页面处理

1、在页面源代码中搜索font-face关键字,可以发现字体文件在网页源代码中

2、在网络抓包里面进行筛选,可以发现这里面有对应的字体文件加载地址,由后端返回

3、对于字体文件,可以直接使用工具进行解析

工具在线地址:http://font.qqe2.com/

使用方式:

  • 下载字体文件到本地目录
  • 访问在线工具网站,点击左上角打开,找到本地目录字体文件即可

字体分析

1、正常在网页里面展示的薪酬是:200-250/天,而下载后的页面元素

2、解析的字体文件

3、woff文件转化成xml文件进行分析,通过分析原来是unicode码


逆向结果


关键代码

class GetZhaoPin():

		...

    def get_font_data(self,ttf):
        font_dict = {}
        # font = TTFont("file.woff")
        font = TTFont(ttf)
        cmap = font.get("cmap").getBestCmap()
        for k, v in cmap.items():
            if v[3:]:
                content = "\\u00" + v[3:] if len(v[3:]) == 2 else "\\u" + v[3:]
                real_content = content.encode('utf-8').decode('unicode_escape')
                k_hex = hex(k)
                # 网页返回的字体是以&#x开头  ,换成以这个开头,下面代码就是直接替换
                real_k = k_hex.replace("0x", "&#x")
                font_dict[real_k] = real_content
        return font_dict
    ...

    def main(self):
        # 第1步:获取html,且存为html文件以便后面研究使用
        ret = self.get_html()
        # 第2步:下载html配套的ttf文件
        self.get_font(ret)
        # 第3步:提取ttf中摄影的数据
        font_dict = self.get_font_data('file.woff')
        # 第4步:对下载(HTML内容)进行替换
        html = self.put_html(font_dict)
        # 第5步:使用xpath提取想要的数据
        data = self.get_data(html)
        print(data)


字体解析模块使用

模块安装

pip install fontTools

字体读取

from fontTools.ttLib import TTFont
# 加载字体文件:
font = TTFont('file.woff')
# 转为xml文件:
font.saveXML('file.xml')

节点读取

from fontTools.ttLib import TTFont
# 加载字体文件:
font = TTFont('file.woff')
kv = font.keys()
print(kv)

字体文件不仅包含字形数据和点信息,还包括字符到字形映射、字体标题、命名和水平指标等,这些信息存在对应的表中:

作用

cmap

字符到字形映射

glyf

字形数据

head

字体标题

hhea

水平标题

hmtx

水平指标

loca

索引到位置

maxp

最大限度的

name

命名

post

后记

获取请求到的字体code和name的对应关系

code_name_map = font_aa.getBestCmap()

获取字体坐标信息

font_aa = TTFont('file.woff')
# 获取请求到的字体形状
glyf = font_aa['glyf']
#font['glyf'][字体编码].coordinates
font_aa['glyf']['uni4E94'].coordinates


总结

字体反爬技术可以让爬虫无法直接解析网页中的文本内容,进而影响爬虫的正常爬取。这对于开发者来说是一种有效的防御手段,可以保护网站的数据和内容不受到未经授权的恶意抓取。但是,在应对字体反爬技术时,爬虫也可以通过下列方式解决:

1、获取字体文件:当爬虫发现网页中的文本内容被替换成了特殊字体时,可以下载相应的字体文件,并使用专门的工具将该字体文件映射到本地字体文件中,进而能够正确解析该字体格式。

2、破解字体映射:有些字体反爬技术会采用自定义的映射表来替换文本内容,爬虫可以通过破解该映射表,获取相应的真实文本内容,进而绕过字体反爬的限制。

3、转换字符编码:如果字体文件被加密或加入了特殊处理,爬虫可以通过转换字符编码的方式,解析字体反爬中使用的特殊字符,从而获取相应的网页内容。

综上所述,尽管字体反爬技术可以对爬虫造成一定的防御,但是爬虫仍可以通过一些技术手段来解决这个问题,因此开发者需要根据具体情况来选择不同的对策手段。

声明:本文章所有演示内容仅供学习交流使用,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系作者立即删除!

相关推荐

office2007免安装绿色版(office2007绿色完整版)

把你的绿色版删除!附件的压缩包里有微软提供的卸载程序!运行一遍就可以了!office2007哪个版本好?针对office2007哪个版本好,office2007的版本主要有office2007官方下载...

魔兽官方对战平台(魔兽官方对战平台什么时候回归)

魔兽争霸的对战平台每个时间段都不一样。以前最后的就是浩方队员平台,还有QQ对战平台,后来又出来了vs对战平台。其中开始的浩方平台高手多,后来vs平台出来后大量高手都跑过去了,QQ平台一般菜鸟比较多。...

三国策略手游(三国策略手游试玩)

率土之滨官方版是一款超级好玩的全新策略三国竞技冒险手游,高清质风格的游戏画面能够带你体验全新的策略战斗,高度自由的竞技玩法,玩家可以在游戏中打造属于自己的三国世界1、《极无双》:3D动作军团征战手游《...

在线音频转换器(在线音频转换器Audio)

音频转换器是一种工具,它可以将一个音频格式转换成另外一个格式。使用它非常简单,首先打开音频转换器软件,然后选择需要转换的音频文件,设置输出格式和参数,最后点击转换按钮即可完成转换。注意,在设置输出格式...

拼音输入法哪个最好用(电脑打字常用输入法)

拼音输入法推荐使用谷歌拼音输入法。谷歌的拼音输入法,有五大特色:智能输入:选词和组句准确率高,能聪明地理解您的意图,短句长句,随想随打。时尚语汇:海量词库整合了互联网上的流行语汇和热门搜索词。...

ps软件官方免费下载电脑版免费

1:点击下载好的安装包先进行解压,然后点击“Photoshop_CS6_CHS_lite.exe”文件2:在弹开的界面中点击“自定义安装”,这里小编说明一下,如果用户选择“快速安装”的话,那么软件的安...

传奇盒子平台大全(传奇盒子赚钱)

在996传奇盒子中,会员玩家可以在“我的游戏”中通过“云玩”进入之前体验过的传奇游戏,开启挂机模式后,就能在“云多开”系统里观察到自己的云设备和正在进行云游戏状态的传奇游戏,如果点进手机后台,还能看到...

pdf查看软件(查看pdf格式的软件)

pdf当然可以有查找功能:1、第一步:首先我们要使用WPSOffice打开PDF文档。2、第二步:我们需要依次点击“开始”--->“查找”(或使用快捷键“Ctrl+F”)。3、第三步:我们在查...

中国象棋下载安装(下载中国象棋官方版)

不用刻意下载个中国象棋APP,只需要下载一个QQ游戏,里头就有中国象棋玩了,里头点开后,自动下载,还可以连接其他玩家,一起玩,切磋棋艺。你这问题太模糊了。。。是你有一个象棋游戏,想放到桌面上,双击就可...

手机bt下载软件哪个好(手机有什么下载bt的软件)

磁力下载app推荐黑科技APP,这个好用黑科下载器APP也是一款功能强大且使用的下载类工具应用,它支持磁力以及种子文件的下载。还可以把下载的的文件转存到云盘,并支持在线的云播预览功能,无需等待能直接边...

狂野飙车9下载(狂野飙车9下载入口)

您可以在AppStore搜索“狂野飙车9”或者直接使用Safari等浏览器搜索“狂野飙车9官方下载”,进入官网下载页面,点击下载按钮并根据提示进行下载安装即可。在下载前请确保您的苹果设备已连接稳定...

免费相册视频制作软件(怎么把拍的照片做成视频)
免费相册视频制作软件(怎么把拍的照片做成视频)

电脑端1.会声会影会声会影上手简单而且做出的相册的效果也很不错,很适合新手使用,x7以前的版本都是可以自己去免费用的。2.premiere(pr)pr是一款比较专业的视频剪辑制作软件,用它来做电子相册也是很不错的,做出的效果很高大上,如果只...

2026-01-17 21:43 off999

图片文字修改神器免费(手机无痕修改图片文字软件)

首先区分是完整图片导入还是ai软件自己编写的文字,如果导入的图片无法修改,只能像ps一样去修图,如果是软件编写的,无法选取先要解锁,方法:上面任务栏对象-选择全部解锁。然后修改。修改方法:如果对方编组...

开户最忌三个证券公司(随便哪个证券公司开户都一样吗)

在不同的证券公司开户,确实存在一些区别。首先,不同的证券公司提供的交易品种和交易费用可能不同,有些公司可能提供更广泛的投资选择,而有些公司则可能提供更低的佣金率,这直接影响到您的投资成本和收益。其次,...

农行手机银行app下载(中国农业银行App下载)

自己下载的农行手机银行是能转账的,只是额度可能会要低一些,比如一类卡,在农行网点注册下载并开通手机银行,一天转账的额度是有十万,而自己下载注册开通的手机银行额度则只有5万,自己是可以下载农行手机银行是...

取消回复欢迎 发表评论: