盘点3种Python网络爬虫过程中的中文乱码的处理方法
off999 2024-10-23 12:48 32 浏览 0 评论
大家好,我是Python进阶者。前几天给大家分享了一些乱码问题的文章,感兴趣的小伙伴可以前往:UnicodeEncodeError: 'gbk' codec can't encode character解决方法,这里再次给大家祭出网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助。
前言
前几天有个粉丝在Python交流群里问了一道关于使用Python网络爬虫过程中中文乱码的问题,如下图所示。
看上去确实头大,对于爬虫初学者来说,这个乱码摆在自己面前,犹如拦路虎一般难顶。不过别慌,小编在这里给大家整理了三种方法,专门用于针对中文乱码的,希望大家在后面再次遇到中文乱码的问题,在此处可以得到灵感!
一、思路
其实解决问题的关键点就是在于一点,就是将乱码的部分进行处理,而处理的方案主要可以从两个方面进行出发。其一是针对整体网页进行提前编码,其二是针对局部具体中文乱码的部分进行编码处理。这里例举3种方法,肯定还有其他的方法的,也欢迎大家在评论区谏言。
二、分析
其实关于中文乱码的表现形式有很多,但是常见的两种如下:
1、当出现网页编码为gbk,获取到的内容在控制台打印类似如下情况的时候:
?à?? μ???×à ?ü?ì ?ú·? ?é°? D?????4k±ú??2、当出现网页编码为gbk,获取到的内容在控制台打印类似如下情况的时候:
????? ??? ? С? Ψ??虽然看上去控制台输出正常,没有报错:
Process finished with exit code 0但是输出的中文内容,却不是普通人能看得懂的。
这种情况下的话,就可以通过使用本文给出的三种方法进行解决,屡试不爽!
三、具体实现
1)方法一:将requests.get().text改为requests.get().content
我们可以看到通过text()方法获取到的源码,之后进行打印输出的话,确实是会存在乱码的,如下图所示。
此时可以考虑将请求变为.content,得到的内容就是正常的了。
2)方法二:手动指定网页编码
# 手动设定响应数据的编码格式
response.encoding = response.apparent_encoding这个方法稍微复杂一些,但是比较好理解,对于初学者来说,还是比较好接受的。
如果觉得上面的方法很难记住,或者你可以尝试直接指定gbk编码也可以进行处理,如下图所示:
上面介绍的两种方法都是针对网页进行整体编码,效果显著,接下来的第三种方法就是针对中文局部乱码部分使用通用编码方法进行处理。
3)方法三:使用通用的编码方法
img_name.encode('iso-8859-1').decode('gbk')使用通用的编码方法,对中文出现乱码的地方进行编码设定即可。还是当前的这个例子,针对img_name进行编码设定,指定编码并进行解码,如下图所示。
如此一来,中文乱码的问题就迎刃而解了。
四、总结
我是Python进阶者。本文基于粉丝提问,针对Python网络爬虫过程中的中文乱码问题,给出了3种乱码解决方法,顺利帮助粉丝解决了问题。虽然文中例举了3种方法,但是小编相信肯定还有其他的方法的,也欢迎大家在评论区谏言。
相关推荐
- win7格式化电脑怎么弄
-
win7旧电脑想要格式化干净,具体方法如下:WIN7电脑利用鼠标点击我的电脑,找到C盘,鼠标右键选择格式化,这样就可以格式化,干干净净在Windows7中,您可以通过以下步骤来格式化计算机,而无需...
- 蓝牙适配器驱动安装教程(蓝牙适配器的驱动怎么安装)
-
1可以在官网或第三方软件平台下载相关驱动程序。2在安装驱动前,需要先确认你的蓝牙适配器的类型和型号,然后去对应的官网或者第三方软件平台下载最新的驱动。3安装驱动程序时需要注意,不能插拔蓝牙适配器...
- 手机上怎么设置wifi密码(手机上怎么设置wifi密码万能钥匙打不开)
-
已经安装和设置好的路由器,如果想用手机设置新的密码,可以按照下面的步骤进行操作: 1.首先,请确保你的手机连接到路由器的wifi网络,否则无法进行设置。 2.在路由器背面的铭牌中,查看路由器的登录...
- win7升win10会丢数据吗(win7升级win10会丢失数据吗)
-
你打开电脑那个控制面板,然后硬件硬盘管理。你看一下在那里应该是可以吧,d盘e盘f盘都拉出来的。只要您的那个硬盘没有坏。如果说这里面找不到的话你就拿到,那个,卖电脑那里重新装个系统就可以了。不会!安卓手...
- win10系统在哪里(win10系统在哪里看显卡配置)
-
在Windows10系统中,您可以使用以下步骤查看所有程序:1.点击“开始”按钮。2.在“搜索”框中键入“程序”,然后按“搜索”。3.在搜索结果页面中,您可以使用分类浏览程序列表,也可以按...
- win7内部版本7601怎么激活(win7内部版本7601激活必须今天激活)
-
没法激活,win7本身不具备激活7601的功能右击计算机--属性,拉倒最下面,会提示该系统未激活,然后点击激活,输入密钥就可以了,需要连接互联网。如果没有互联网,也可以电话激活。Windows7内部版...
- win8pe是什么意思(win8pe系统)
-
Windows8.1和PEWindows都是操作系统,但它们有一些不同之处。Windows8.1是微软推出的正式版操作系统,拥有更多的功能和应用程序。它适用于个人用户和商业用户,并提供更好的兼容性...
- 电脑桌面此电脑没了怎么恢复
-
1.在桌面上单击鼠标右键。将光标移到查看选项上。2.此时在右边找到显示桌面图标选项。此时在右边找到显示桌面图标选项。3.此时即可发现桌面的图标回来了。电脑桌面什么都没有了,可以建议找到设置,尝试恢复电...
- 台式电脑怎么重置系统(台式电脑怎么重新设置)
-
1、Win10系统启动到LOGO界面后,强制重启,反复3次左右,至到显示疑难解答,我们点击疑难解答进入;2.选重置此点电脑;3.接下来这里,我选择的删除所有内容。这里是准备要格式化系统分区C盘,如果想...
- 电脑公司模拟器破解版下载(电脑公司模拟器1.0.8)
-
直接先将xci程序复制到switch存储卡根目录,而后通过主机自带的安装程序直接安装
- xp系统永久激活密钥2020年(xp系统激活秘钥)
-
windowsxp产品密钥大全YBVJB-YV2JW-7FHPT-6D8XG-RT83GHRXTR-FKTCV-X8QCH-D7PTH-KYYPBJF8MD-XB4Y4-HHB28-Q3G2K-QW...
- 手写中文输入法下载安装(中文手写输入器)
-
1、首先第一步就是打开手机主界面,然后依次打开“设置”、“通用”、“键盘”,2、跳转的页面再点击“键盘”,3、勾选自己喜欢的中文手写模式,最后点击设定即可。仅参考先打开手机设置,然后点击一个语言和输入...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
