百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

新手爬虫必备!一招搞定漂亮数据结构,超实用Python库,赶紧收藏

off999 2024-11-09 12:53 13 浏览 0 评论


在学习爬虫的时候,大家肯定碰到过返回的结果是json字符串格式的数据。对于这种数据我们通常使用的是json模块,将json字符串,转化为字典格式的数据,然后采用 "键值对" 方式,获取我们想要的数据。

但是存在一个问题

我们爬取到的数据多为json数据,转化为字典后,嵌套太多。看起来密密麻麻,一团糟,毫无规律可言。

今天就告诉大家解决这个问题的宝藏Python库——pprint,这可算是一个超实用的爬虫技巧,大家赶紧拿出小本本,记录下来。

举例说明:

下面我们以腾讯新闻为爬取对象,看看最终得到的数据是个什么样子。

import requests
import json
china_url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

response = requests.get(url = china_url,headers = headers).json()
data = json.loads(response["data"])
print(type(data))
print(data)

最后爬取结果如下:

我们利用json( )方法,直接将json字符串,转换为了dict格式的数据。扫描一下数据,我的妈!一大堆,我该怎么解析?有时候碰到爬取的结果比较简短时还好,要是一整页的数据这不是让人头疼么?

那么,有没有一种好的办法,能够快速帮助我们理清数据之间的关系呢?那么pprint模块是一个很好的选择。

pprint是啥?

pprint模块 提供了打印出任何Python数据结构类和方法。

pprint模块包含一个"漂亮的打印机",用于生成美观的数据结构视图。格式化程序生成数据结构的表示,可以由解释器正确解析,并且人们也可以轻松阅读。如果可能,输出将保留在一行中,并在分割为多行时缩进。

pprint是一个第三方库,在使用之前,我们需要pip安装。

pip install pprint  

安装后,直接导入即可。

from pprint import pprint  

接着,对于上述案例,我们使用 pprint( )函数,打印一下,看看会有什么好的效果呢?

from pprint import pprint    pprint(data)  

结果如下:

从图中就可以清楚地看出,这个嵌套关系,这样应该很好解析了吧?

下面再用一个简单的案例,带大家感受一下~

dic = { 'main': {'temp': 44, 'feels\_like': 40.42, 'temp\_min': 44,   
'temp\_max': 44, 'pressure': 1002, 'humidity': 11},   
'visibility': 6000, 'wind': {'speed': 4.1, 'deg': 290,   
'gust': 9.3}, 'clouds': {'all': 30}, 'dt': 1590398990,   
'sys': {'type': 1, 'id': 9165, 'country': 'IN',   
'sunrise': 1590364538, 'sunset': 1590414050},   
'timezone': 19800, 'id': 1273294, 'name': 'Delhi',   
'cod': 200}

有这样一个嵌套字典,如果想要获sys标签下面的id数据,应该怎么办呢?

pprint(dic)  

结果如下:

对于上面这个数据,我想大家应该没问题了吧,如果想要获取sys标签下的id数据,你应该知道怎么做吧?

dic['sys']['id']

结果如下:

网页源代码的结果,基本是一致的,因此你清楚了这种结构关系,只需要一个for循环,就可以很简单的拿到你想要的数据。

到这里相信大家应该都对pprint这个模块有所了解了吧,可是非常实用的!还不赶紧收藏操练起来?


关注我,带大家了解更多的Python小技巧,定期还会有纯干货分享哦~

相关推荐

第九章:Python文件操作与输入输出

9.1文件的基本操作9.1.1打开文件理论知识:在Python中,使用open()函数来打开文件。open()函数接受两个主要参数:文件名和打开模式。打开模式决定了文件如何被使用,常见的模式有:&...

Python的文件处理

一、文件处理的流程1.打开文件,得到文件句柄并赋值给一个变量2.通过句柄对文件进行操作3.关闭文件示例:d=open('abc')data1=d.read()pri...

Python处理文本的25个经典操作

Python处理文本的优势主要体现在其简洁性、功能强大和灵活性。具体来说,Python提供了丰富的库和工具,使得对文件的读写、处理变得轻而易举。简洁的文件操作接口Python通过内置的open()函数...

Python学不会来打我(84)python复制文件操作总结

上一篇文章我们分享了python读写文件的操作,主要用到了open()、read()、write()等方法。这一次是在文件读写的基础之上,我们分享文件的复制。#python##python自学##...

python 文件操作

1.检查目录/文件使用exists()方法来检查是否存在特定路径。如果存在,返回True;如果不存在,则返回False。此功能在os和pathlib模块中均可用,各自的用法如下。#os模块中e...

《文件操作(读写文件)》

一、文件操作基础1.open()函数核心语法file=open("filename.txt",mode="r",encoding="utf-8"...

栋察宇宙(二十一):Python 文件操作全解析

分享乐趣,传播快乐,增长见识,留下美好。亲爱的您,这里是LearingYard学苑!今天小编为大家带来“Python文件操作全解析”欢迎您的访问!Sharethefun,spreadthe...

值得学习练手的70个Python项目(附代码),太实用了

Python丰富的开发生态是它的一大优势,各种第三方库、框架和代码,都是前人造好的“轮子”,能够完成很多操作,让你的开发事半功倍。下面就给大家介绍70个通过Python构建的项目,以此来学习Pytho...

python图形化编程:猜数字的游戏

importrandomnum=random.randint(1,500)running=Truetimes=0##总的次数fromtkinterimport*##导入所有tki...

一文讲清Python Flask的Web编程知识

刚入坑Python做Web开发的新手,还在被配置臃肿、启动繁琐折磨?Flask这轻量级框架最近又火出圈,凭5行代码启动Web服务的极致简洁,让90后程序员小张直呼真香——毕竟他刚用这招把部署时间从半小...

用python 编写一个hello,world

第一种:交互式运行一个hello,world程序:这是写python的第一步,也是学习各类语言的第一步,就是用这种语言写一个hello,world程序.第一步,打开命令行窗口,输入python,第二步...

python编程:如何使用python代码绘制出哪些常见的机器学习图像?

专栏推荐绘图的变量单变量查看单变量最方便的无疑是displot()函数,默认绘制一个直方图,并你核密度估计(KDE)sns.set(color_codes=True)np.random.seed(su...

如何编写快速且更惯用的 Python 代码

Python因其可读性而受到称赞。这使它成为一种很好的第一语言,也是脚本和原型设计的流行选择。在这篇文章中,我们将研究一些可以使您的Python代码更具可读性和惯用性的技术。我不仅仅是pyt...

Python函数式编程的详细分析(代码示例)

本篇文章给大家带来的内容是关于Python函数式编程的详细分析(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。FunctionalProgramming,函数式编程。Py...

编程小白学做题:Python 的经典编程题及详解,附代码和注释(七)

适合Python3+的6道编程练习题(附详解)1.检查字符串是否以指定子串开头题目描述:判断字符串是否以给定子串开头(如"helloworld"以"hello&...

取消回复欢迎 发表评论: