百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

新手爬虫必备!一招搞定漂亮数据结构,超实用Python库,赶紧收藏

off999 2024-11-09 12:53 16 浏览 0 评论


在学习爬虫的时候,大家肯定碰到过返回的结果是json字符串格式的数据。对于这种数据我们通常使用的是json模块,将json字符串,转化为字典格式的数据,然后采用 "键值对" 方式,获取我们想要的数据。

但是存在一个问题

我们爬取到的数据多为json数据,转化为字典后,嵌套太多。看起来密密麻麻,一团糟,毫无规律可言。

今天就告诉大家解决这个问题的宝藏Python库——pprint,这可算是一个超实用的爬虫技巧,大家赶紧拿出小本本,记录下来。

举例说明:

下面我们以腾讯新闻为爬取对象,看看最终得到的数据是个什么样子。

import requests
import json
china_url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

response = requests.get(url = china_url,headers = headers).json()
data = json.loads(response["data"])
print(type(data))
print(data)

最后爬取结果如下:

我们利用json( )方法,直接将json字符串,转换为了dict格式的数据。扫描一下数据,我的妈!一大堆,我该怎么解析?有时候碰到爬取的结果比较简短时还好,要是一整页的数据这不是让人头疼么?

那么,有没有一种好的办法,能够快速帮助我们理清数据之间的关系呢?那么pprint模块是一个很好的选择。

pprint是啥?

pprint模块 提供了打印出任何Python数据结构类和方法。

pprint模块包含一个"漂亮的打印机",用于生成美观的数据结构视图。格式化程序生成数据结构的表示,可以由解释器正确解析,并且人们也可以轻松阅读。如果可能,输出将保留在一行中,并在分割为多行时缩进。

pprint是一个第三方库,在使用之前,我们需要pip安装。

pip install pprint  

安装后,直接导入即可。

from pprint import pprint  

接着,对于上述案例,我们使用 pprint( )函数,打印一下,看看会有什么好的效果呢?

from pprint import pprint    pprint(data)  

结果如下:

从图中就可以清楚地看出,这个嵌套关系,这样应该很好解析了吧?

下面再用一个简单的案例,带大家感受一下~

dic = { 'main': {'temp': 44, 'feels\_like': 40.42, 'temp\_min': 44,   
'temp\_max': 44, 'pressure': 1002, 'humidity': 11},   
'visibility': 6000, 'wind': {'speed': 4.1, 'deg': 290,   
'gust': 9.3}, 'clouds': {'all': 30}, 'dt': 1590398990,   
'sys': {'type': 1, 'id': 9165, 'country': 'IN',   
'sunrise': 1590364538, 'sunset': 1590414050},   
'timezone': 19800, 'id': 1273294, 'name': 'Delhi',   
'cod': 200}

有这样一个嵌套字典,如果想要获sys标签下面的id数据,应该怎么办呢?

pprint(dic)  

结果如下:

对于上面这个数据,我想大家应该没问题了吧,如果想要获取sys标签下的id数据,你应该知道怎么做吧?

dic['sys']['id']

结果如下:

网页源代码的结果,基本是一致的,因此你清楚了这种结构关系,只需要一个for循环,就可以很简单的拿到你想要的数据。

到这里相信大家应该都对pprint这个模块有所了解了吧,可是非常实用的!还不赶紧收藏操练起来?


关注我,带大家了解更多的Python小技巧,定期还会有纯干货分享哦~

相关推荐

fat32u盘(FAT32u盘多少钱一个)
  • fat32u盘(FAT32u盘多少钱一个)
  • fat32u盘(FAT32u盘多少钱一个)
  • fat32u盘(FAT32u盘多少钱一个)
  • fat32u盘(FAT32u盘多少钱一个)
不用拉网线的路由器是真的吗

是真的不插卡不拉线有线就有网,这11个字其实就涵盖了无线路由器的特点,无线路由器免插卡、不用拉网线,完全摆脱了之前家用路由器和网线捆绑的模式,有电就有网,其实说的就是无线路由器的使用操作简单,通电就可...

微信恢复好友怎么弄回来(vx好友恢复)
  • 微信恢复好友怎么弄回来(vx好友恢复)
  • 微信恢复好友怎么弄回来(vx好友恢复)
  • 微信恢复好友怎么弄回来(vx好友恢复)
  • 微信恢复好友怎么弄回来(vx好友恢复)
u盘检测软件下载(u盘测试软件)

1、u盘芯片检测工具(ChipEasy)可以查看USB设备PID、VID、SN、制造商、产品名等;2、查看USB设备主控芯片信息、闪存芯片信息、固件信息、电流控制3、SSD型号...

电脑现在什么系统最好(电脑现在用什么系统好)

WINXP好用,但过时了。VISTA不好用,没推开就夭折了。WIN8/8.1是针对触模屏设计的,如果你用的不是触摸屏平板电脑是普通电脑,使WIN8/8.1总觉着很蹩扭。新出的WIN10,功能...

账号怎么注册(steam账号怎么注册)

如果注册是qq账号【qq号码的申请办法】【1】双击qq登陆界面,在qq帐号填写空格的后面你可以看见:[申请帐号];【2】点击[申请帐号]进入,就可以在网上免费申请号码了;【3】进入www.qq.com...

tmp文件是什么意思(tmp文件有什么用)

在系统C:\Windows\Temp文件夹中,我们经常会发现一些后缀名为TMP的文件,在该文件夹中的这些文件其实都是临时文件。它们可能是系统被误关机,或者其他程序没有删除而生的。而且在该文件夹中还有其...

怎么给u盘格式化(怎么给u盘格式化成FAT32)

u盘插入电脑,等待桌面弹出u盘图标。打开“计算机”。左键选中u盘,单击右键,在弹出的菜单中,点击“格式化”。点击“开始”,点击“确定”即可。格式化u盘详细步骤1、找到U盘盘符,鼠标右键点击,弹出菜单中...

harmonyos主题下载(harmonyos主题怎么换)

首先,打开荣耀手机的应用市场,在搜索框中输入“华为鸿蒙主题”,然后点击搜索。找到“华为鸿蒙主题”应用后,点击下载即可。下载完成后,打开“华为鸿蒙主题”应用,选择心仪的主题,点击下载并应用即可享受华为鸿...

戴尔笔记本电脑黑屏却开着机

对于电脑黑屏的处理基本上采用排除、替换相结合的方法,其原则应本着先替换排除可疑性最大的部件。对于普通电脑用户来讲,专业知识不足,可以按下列步骤分析故障原因,以便可以自己动手排除故障。首先检查接触是否良...

手机版电脑桌面下载(手机电脑桌面下载软件安装包)

只有电脑版手机助手软件,没有手机桌面这个软件在电脑上点击今日头条APP下载安装即可哦你好,陌陌电脑版如果说你想要下载到电脑桌面的话,你只需要长按把它添加到你的电脑桌面就可以了。要将软件下载到桌面并创建...

ghost备份中文图解(ghost备份1837)

其实是这样的ghost文件备份后会生成两个文件一个是.GHO一个是.GHS文件FAT32格式的分区,单个文件最大只支持到2G(2048M),如果你的镜像>2G,这时的做的GHOST在一个文件里装...

win10一键重装win7(win10一键重装系统)

1、首先准备一个4GB以上可以正常使用的U盘。2、在一个可以正常使用的电脑上,下载老毛桃软件并安装。3、去网上下载所需的win7,win10选择自己所需要的系统,并下载下来。4、插入u盘并打开老毛桃...

戴尔按f12还原系统步骤win10

基本上正常的话是f8,如果你希望他变成年,F12,你要打开设置去连,然后把这个快捷键的位置调一调戴尔的键盘f1到f12恢复原功能的方法:1、可能是操作者操作有误的原因,使键盘没有任何反应。2、根据复合...

qq网页版官网(qq1网页版)
qq网页版官网(qq1网页版)

https://aq.qq.com/cn2/indexQQ安全中心是腾讯公司推出的QQ帐号保护软件,为广大QQ用户提供一站式的QQ安全服务,包括了密保管理、帐号保护、安全体检、修改密码、帐号申诉等功能,让账号更加安全可靠。为了全面保护QQ帐...

2025-11-18 15:03 off999

取消回复欢迎 发表评论: