新手爬虫必备!一招搞定漂亮数据结构,超实用Python库,赶紧收藏
off999 2024-11-09 12:53 22 浏览 0 评论
在学习爬虫的时候,大家肯定碰到过返回的结果是json字符串格式的数据。对于这种数据我们通常使用的是json模块,将json字符串,转化为字典格式的数据,然后采用 "键值对" 方式,获取我们想要的数据。
但是存在一个问题:
我们爬取到的数据多为json数据,转化为字典后,嵌套太多。看起来密密麻麻,一团糟,毫无规律可言。
今天就告诉大家解决这个问题的宝藏Python库——pprint,这可算是一个超实用的爬虫技巧,大家赶紧拿出小本本,记录下来。
举例说明:
下面我们以腾讯新闻为爬取对象,看看最终得到的数据是个什么样子。
import requests
import json
china_url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
response = requests.get(url = china_url,headers = headers).json()
data = json.loads(response["data"])
print(type(data))
print(data)最后爬取结果如下:
我们利用json( )方法,直接将json字符串,转换为了dict格式的数据。扫描一下数据,我的妈!一大堆,我该怎么解析?有时候碰到爬取的结果比较简短时还好,要是一整页的数据这不是让人头疼么?
那么,有没有一种好的办法,能够快速帮助我们理清数据之间的关系呢?那么pprint模块是一个很好的选择。
pprint是啥?
pprint模块 提供了打印出任何Python数据结构类和方法。
pprint模块包含一个"漂亮的打印机",用于生成美观的数据结构视图。格式化程序生成数据结构的表示,可以由解释器正确解析,并且人们也可以轻松阅读。如果可能,输出将保留在一行中,并在分割为多行时缩进。
pprint是一个第三方库,在使用之前,我们需要pip安装。
pip install pprint 安装后,直接导入即可。
from pprint import pprint 接着,对于上述案例,我们使用 pprint( )函数,打印一下,看看会有什么好的效果呢?
from pprint import pprint pprint(data) 结果如下:
从图中就可以清楚地看出,这个嵌套关系,这样应该很好解析了吧?
下面再用一个简单的案例,带大家感受一下~
dic = { 'main': {'temp': 44, 'feels\_like': 40.42, 'temp\_min': 44,
'temp\_max': 44, 'pressure': 1002, 'humidity': 11},
'visibility': 6000, 'wind': {'speed': 4.1, 'deg': 290,
'gust': 9.3}, 'clouds': {'all': 30}, 'dt': 1590398990,
'sys': {'type': 1, 'id': 9165, 'country': 'IN',
'sunrise': 1590364538, 'sunset': 1590414050},
'timezone': 19800, 'id': 1273294, 'name': 'Delhi',
'cod': 200}有这样一个嵌套字典,如果想要获sys标签下面的id数据,应该怎么办呢?
pprint(dic) 结果如下:
对于上面这个数据,我想大家应该没问题了吧,如果想要获取sys标签下的id数据,你应该知道怎么做吧?
dic['sys']['id']结果如下:
网页源代码的结果,基本是一致的,因此你清楚了这种结构关系,只需要一个for循环,就可以很简单的拿到你想要的数据。
到这里相信大家应该都对pprint这个模块有所了解了吧,可是非常实用的!还不赶紧收藏操练起来?
关注我,带大家了解更多的Python小技巧,定期还会有纯干货分享哦~
相关推荐
- conservative(conservative翻译)
-
conservative是贬义词。作形容词使用意思是保守的;守旧的;(英国)保守党的;低于实际数量的;作名词使用意思是(英国)保守党党员,保守党支持者;保守者;因循守旧者;例句Atleast50...
- 什么杀毒软件安全可靠(什么杀毒软件安全可靠性高)
-
肯定是360啊,虽然金山是老牌的杀毒软件公司,但是我觉得金山的体验做得确实一般,收费的时候市场份额很大,但是被360免费之后,360找到自己免费的盈利方式,一直更新迭代功能,不断的加强完善,技术投入力...
- 中国联通宽带办理(联通宽带办理)
-
1、首先,请大家打开中国联通官方网站,然后登陆属于自己的账号,可以使用手机号码登录也可以自己注册一个账号登录。2、登陆账号成功以后,点击网页中的“宽带受理”栏目,然后点击进入宽带受理栏目进行在线预约安...
- 吾爱破解网(吾爱破解网传奇辅助)
-
你说的这个论坛。我虽然没有注册过,但是我告诉你一般情况下,各大论坛在五一,十一,春节期间会发放邀请码~~~另外,你学习破解也不一定非要到这个破解论坛,很多的黑客论坛有破解板块。这个论坛,本来就是不好...
- 小游戏网页版秒玩(网页版游戏推荐)
-
云游戏可以玩电脑游戏。云电脑(Cloudcomputer)是一种智能终端产品,包括云端资源、传输协议和云终端等,并具有集中管控与维护、应用访问、整体资源调度、弹性资源扩展、数据安全等特色特点。云电脑...
- qq管家官方下载官网(qq管家官方网站)
-
腾讯电脑管家(TencentPCManager/原名QQ电脑管家)是腾讯公司推出的免费安全软件。拥有云查杀木马,系统加速,漏洞修复,实时防护,网速保护,电脑诊所,健康小助手,桌面整理,文档保护等功...
- photoshop最新软件版本(ps最新版本是)
-
你好,AdobePhotoshop的最新版本是PhotoshopCC2020。新版本的Photoshop具有更多的功能和改进,包括云同步,自动对象选择,增强的画笔和填充工具等。此外,新的Phot...
-
- 扫图识别图片在线(扫图识别app下载)
-
1、首先打开手机相册,然后选择你需要识别的图片;2、长按图片,在应用选择中选择“提取文字”;3、对于通过扫一扫识别图片后所得到的文字内容,我们可以进行分享或保存到便签中进行修改编辑,还可以转换到其它文档中进行处理。拓展资料:二维码是近年来在...
-
2026-01-17 16:03 off999
- 活跃气氛的10个小游戏(活跃气氛的10个小游戏简单)
-
我推荐手指儿歌律动小游戏,因为手指儿歌的话,会活动小朋友们的手指,手指活动完之后,我们就可以进行下一步的一些事情1、大合唱:准备一些歌曲,大家将歌词印在白板上,每人叫出句子,所有人一起唱歌,激发出非常...
- 全能播放器(EV 全能播放器)
-
在选择全能播放器时,可以考虑以下几个因素:格式支持、功能丰富、界面友好、播放流畅、兼容性强。目前市面上有许多优秀的全能播放器可供选择,如VLC媒体播放器、PotPlayer、KMPlayer等。它们都...
- 和平精英免费挂 锁头 透视(和平精英挂透视,锁头,自瞄)
-
apm的意思有很多种。apm在游戏中是指每分钟操作次数,也叫手速;APM也可以是AutomatedPeopleMoverSystem的缩写,意思是旅客自动捷运系统;APM还可能是Advanced...
- 爱思助手app下载安装(爱思助手下载 安装安卓)
-
不能在手机端直接下载,需要先下载PC端。安装步骤如下:第1步,安装爱思助手PC端用电脑访问爱思助手官网在产品中心下载并安装“爱思助手PC端V7版”第2步,安装爱思助手移动端打开爱思助手PC端用数据线连...
- 手机电视直播在线直播(免费观看电视在线高清直播)
-
1、准备一个U盘,在电脑上下载电视直播软件的安装包(apk格式的,如泰捷视频、电视猫、电视家等软件),复制并存储到U盘的根目录下;2、将U盘插入电视机的USB接口;3、启动电视机,进入智能电视主界面;...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
Python 批量卸载关联包 pip-autoremove
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
