盘点3种Python网络爬虫过程中的中文乱码的处理方法
off999 2024-11-14 16:56 17 浏览 0 评论
对于爬虫初学者来说,这个乱码摆在自己面前,犹如拦路虎一般难顶。不过别慌,小编在这里给大家整理了三种方法,专门用于针对中文乱码的,希望大家在后面再次遇到中文乱码的问题,在此处可以得到灵感!
一、思路
其实解决问题的关键点就是在于一点,就是将乱码的部分进行处理,而处理的方案主要可以从两个方面进行出发。其一是针对整体网页进行提前编码,其二是针对局部具体中文乱码的部分进行编码处理。 这里例举3种方法,肯定还有其他的方法的,也欢迎大家在评论区谏言。
二、分析
其实关于中文乱码的表现形式有很多,但是常见的两种如下:
1、当出现网页编码为gbk,获取到的内容在控制台打印类似如下情况的时候:
?à?? μ???×à ?ü?ì ?ú·? ?é°? D?????4k±ú??2、 当出现网页编码为gbk,获取到的内容在控制台打印类似 如 下情况的时候:
????? ??? ? С? Ψ??虽然看上去控制台输出正常,没有报错:
Process finished with exit code 0但是输出的中文内容,却不是普通人能看得懂的。
这种情况下的话,就可以通过使用本文给出的三种方法进行解决,屡试不爽!
三、具体实现
1)方法一:将requests.get().text改为requests.get().content
我们可以看到通过text()方法获取到的源码,之后进行打印输出的话,确实是会存在乱码的,如下图所示。
此时可以考虑将请求变为.content,得到的内容就是正常的了。
2)方法二:手动 指定网页编码
# 手动设定响应数据的编码格式
response.encoding = response.apparent_encoding
这个方法稍微复杂一些,但是比较好理解,对于初学者来说,还是比较好接受的。
如果觉得上面的方法很难记住,或者你可以尝试直接指定gbk编码也可以进行处理,如下图所示:
上面介绍的两种方法都是针对网页进行整体编码,效果显著,接下来的第三种方法就是针对中文局部乱码部分使用通用编码方法进行处理。
3)方法三: 使用通用的编码方法
img_name.encode('iso-8859-1').decode('gbk')使用通用的编码方法,对中文出现乱码的地方进行编码设定即可。还是当前的这个例子,针对img_name进行编码设定,指定编码并进行解码,如下图所示。
如此一来,中文乱码的问题就迎刃而解了。
四、总结
针对Python网络爬虫过程中的中文乱码问题,给出了3种乱码解决方法,虽然 文中 例举了3种方法,但是小编相信肯定还有其他的方法的,也欢迎大家在评论区谏言。
相关推荐
- 苹果商城app下载安装(苹果商店app免费下载)
-
一、苹果手机下载软件显示APP内购买的意思是APP可以免费下载使用,但是该APP内有付费内容,也就是通常所说的收费道具。二、不是所有应用都会提供App内购买项目。如果某个应用提供App内购买...
- 惠普电脑中国官网(惠普手提电脑官网)
-
https://support.hp.com/cn是惠普笔记本售后服务官网。惠普维修服务中心通过整合线上线下相关资源,向国内用户提供方便快捷、安全可靠的优质电子产品维修服务。目前拥有北京6家、全国30...
- windows2003密钥序列号(win2003 密钥)
-
没有密钥就无法完成程序安装。使用或者购买密钥才能安装
- 电脑产品密钥在哪里找win10(电脑产品密钥在哪里找新机)
-
要查看电脑上Windows10的产品密钥,你可以按照以下步骤进行操作:打开“开始”菜单,然后点击“设置”图标(齿轮状图标)。在“设置”窗口中,点击“更新和安全”选项。在左侧导航栏中,选择“激活”选项...
- 电脑有网络但上不到网(电脑有网但是上不了网)
-
如果电脑显示有网但无法上网,可能是网络连接出现问题。这种情况可能是由于以下几个原因导致的:1.路由器或者调制解调器出现故障;2.电脑的网络设置有误;3.网络供应商的服务中断或者限制了你的网络访问...
- 笔记本突然开不了机了是什么情况
-
1.检查笔记本是否有电,当内置电池用完而又没有充电的情况下,会导致笔记本无法开机,插上电源充电即可。2.内置电池损坏维修更换即可。3.开机时按F8,在高级选项中选择最后一次正确的配置即可。4.中病毒可...
- windows11办公软件(windows11的office)
-
1、首先点击电脑底部的Windows图标2、进入开始页面点击office套件中的任意应用,如Word3、页面弹出登录按钮,和创建按钮,如已有账号,点击登录4、接着进入激活office页面,输入offi...
-
- 7z文件怎么打开(7z文件改什么后缀才能打开)
-
7z是一种压缩格式,和我们在Windows平台上看到的rar类似;7z原本是7-zip开源的压缩文件所支持的压缩格式,目前大多数压缩软件也支持打开,如若安装了第三方压缩软件双击即可打开7z。7z文件的打开方式介绍如下: 1、扩展名为...
-
2025-11-18 02:03 off999
- 重装系统后连不上网(重装系统后无法连网)
-
1、首先,在安装系统完成之后,界面右下角网络连接显示不可用?我们需要通过,系统本身自带的诊断系统进行诊断,以避免是否是物理原因造成的网络不能正常链接。2、其次,检测结果如果是显示的未能安装网络适配器,...
- 破解wifi密码有什么办法(破解wifi密码有什么办法幻影)
-
破解路由器admin管理员密码方法:只能间接的破解。 方法一、1、打开浏览器---输入192.168.1.1(一般路由器地址是这个或者查看路由器背面的登录信息)进路由---输入用户名,密码...
- 电脑截屏如何截屏(电脑截屏截屏用哪个键)
-
1、直接点击键盘上的PrtScSysRq,即可截图,然后直接在聊天框或者图画中“Ctrl+V”粘贴就行了。2、登录QQ以后,点击快捷键“Ctrl+Alt+A”即可截图,框选过后,直接“...
- 迅捷路由器登录(yr1900g路由器登录入口)
-
入口如下:1.打开网页后输入192.168.1.1或tplogin.cn。2.第一次登录路由器或恢复出厂设置后再次设置,按提示设置好管理员密码、上网参数、wifi名称和密码。3.再次进入登录页面中,输...
- pdf格式怎么编辑(怎么创建pdf格式的文件)
-
1、电脑打开PDF文件。2、电脑打开PDF文件后,点击工具栏中的编辑。3、进入编辑页面后,可以点击文字,对pdf文件进行编辑。4、点击裁剪页面选项,就可以对PDF文件中的页面大小进行裁剪。5、PDF文...
- 电脑显示器不亮(电脑显示器不亮了)
-
多种原因:1、检查电脑主机与显示器之间的连接是否松动、损坏,显示器是否正常。2、这是最常见的故障,内存条接触不良导致显示器无信号。解决办法:断电/拔出内存条,用橡皮擦将金手指擦亮再装回去即可。3、显卡...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
