Python 数据分析——利用Pandas进行分组统计
off999 2025-04-29 03:26 22 浏览 0 评论
话说天下大势,分久必合,合久必分。数据分析也是如此,我们经常要对数据进行分组与聚合,以对不同组的数据进行深入解读。本章将介绍如何利用Pandas中的GroupBy操作函数来完成数据的分组、聚合以及统计。
一、分组、应用和聚合
“分而治之”(Divide and Conquer)方法(又称为“分治术”),是有效算法设计中普遍采用的一种技术。所谓“分而治之”,就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的解,把各部分的解组成整个问题的解。这种朴素的思想来源于人们生活与工作的经验,也完全适用于技术领域。以海量数据处理为例,由于数据量太大,导致无法在较短时间内迅速解决,或无法一次性装入内存。那么如何解决该问题呢?无非只有一个办法——大而化小。规模太大,就把规模大的化为规模小的,各个击破。例如,从海量日志数据中提取出某日访问次数最多的那个IP,把整个大文件映射为1000个小文件,再找出每个小文件中出现频率最高的IP及相应的频率,然后从这1000个最大的IP中,找出那个频率最高的IP,即为所求。这也是大数据编程模型MapReduce的基本思想。
Pandas中同样存在着“分而治之”的思想,即Pandas的GroupBy,从英文的字面意义上理解就是“根据(By)一定的规则进行分组(Group)”。它的作用就是通过一定的规则将一个数据集划分成若干个小的区域,然后针对若干个小区域进行数据处理。简单地说,GroupBy就是Split-Apply-Combine,如图1所示。首先将数据按照不同的key进行分割(Split),然后将求和函数sum()应用(Apply)于各组,最后再将数据合并(Combine)到一起,得到最终结果。
图1 Split-Apply-Combine
二、Pandas中的GroupBy操作
本节主要以Seaborn中自带的tips数据集为例对GroupBy进行讲解。数据前5行内容如下。
2.1单列数据分组统计
以tips数据集为例,如果想按照不同性别来对数据进行统计,应该怎么办呢?首先我们需要创建一个DataFrameGroupBy对象,代码如下。
此时我们得到的只是一个DataFrameGroupBy对象,也就是只完成了图1中的Split工作,接下来要做的是Apply和Combine。例如,我们想知道tips分组里面男性(Male)和女性(Female)各有多少,代码如下。
size()即是DataFrameGroupBy对象提供的一个分组聚合函数,该函数将自动统计Male组和Female组中的数据大小,之后将其汇总到一个新的Series中,可以通过如下代码进行验证。
上面的第二段代码对分组对象中的组依次进行了遍历。除了对组进行遍历,我们还可以通过get_group()函数来获取指定组,例如:
在完成分组后,我们就可以针对各组进行聚合运算。例如,我们想看tips数据集中男性、女性买单时总账单、小费以及用餐人数的均值,那么可以采用如下代码。
上述代码对分组中每列都进行聚合运算,有的时候我们只需要对某一列进行聚合运算。例如,我们只想统计男性组与女性组的总账单均值,可以采用如下代码。
DataFrameGroupBy对象除了提供了前面已经用过的聚合函数外,还提供了如下的聚合函数。
· sum():求和
· mean():求平均值
· count():统计所有非空值
· size():统计所有值
· max():求最大值
· min():求最小值
· std():计算标准差
这里重点讲一下size()和count()的区别。有如下数据:
如果分别使用size()和count()这两个聚合函数,得到的结果将不同。
得到不同结果的原因是由于count()函数不会统计空值,而size()函数只是统计组的大小,不管取值是否为空。除了直接对分组对象使用聚合函数来完成分组统计,我们还可以使用agg()或aggregate()函数来进行分组统计,例如下面的代码与使用mean()函数效果完全一样。
既然两者效果一样,为什么Pandas中要提供agg()函数呢?这是因为agg()函数提供了更好的灵活性,我们如果想同时统计各分组的小费均值、最小值、最大值,只需要执行一次agg()函数就可以完成,代码如下。
其中,agg()函数中的参数['mean','min','max']即是聚合函数列表。此外,我们还可以对聚合后的列进行重命名,例如:
与前一段代码不同的是,这里以元组的方式来指定聚合函数。例如,('tip_mean','mean')代表了我们要执行的聚合函数为mean,聚合运算后得到的列名为tip_mean。如果完成聚合后,想将Index去掉,那么可以直接使用reset_index()函数,代码如下。
2.2多列数据分组统计
上一小节是将sex列作为分组基准,如果想同时基于sex列和day列进行分组统计男女每天的消费,可采用如下代码。
上述两段代码分别统计了tips数据集中男性与女性每天总就餐次数以及账单总额。与2.1节类似,我们也可以利用如下代码对聚合后的列进行重命名,如图2所示。
图2 重命名结果
Pandas的分组统计还提供了更加灵活的方式,对于分组后的对象,我们还可以针对不同的列进行不同聚合运算。例如针对tip列和total_bill列,我们想统计不同的内容,那么可以采用如下代码。
统计结果如图3所示。
图3 统计结果
输出数据出现了多级Index,可以用如下代码验证。
其中,第一级Index为tip和total_bill,第二级则是avg_tip、max_tip、avg_bill。如果我们想对其进行修改,可以直接利用修改列名的方式来完成,代码如下。
2.3使用自定义函数进行分组统计
如果Pandas中提供的聚合函数不能满足我们的要求,我们还可以自己编写自定义函数来完成聚合功能。例如,我们想统计男性组与女性组中账单最大值和最小值的差异,可以利用如下代码完成。
上述代码定义了一个lambda函数来完成各组中账单最大值与最小值差的计算。除了对某列进行聚合运算,还可以对不同列定义不同的自定义函数,示例如下。
lambda函数通常用于相对简单的函数定义,如果是复杂一点的,我们可以自己定义新函数后使用。如下代码定义了一个名为max_deviation()的函数。
上述代码中max_deviation()函数的参数s实际对应于分组对象的tip列,因此s.mean()是对该列求平均。在有的情况下,自定义函数还可以带参数,如果我们想知道男性和女性组总账单中金额为30~60的比例,可以采用如下代码。
上述代码中bill_between()函数中的参数,直接通过agg(bill_between,30,60)函数传入。
2.4数据过滤与变换
有的时候我们对数据进行分组不是为了分组统计,而是为了对数据进行过滤或变换,此时可以使用filter()和transform()函数来完成。例如,我们想知道tips数据集中每天消费总额大于20的账单,代码如下。
数据过滤结果如图4所示。
图4 数据过滤
上述代码首先对数据按day进行分组,x['total_bill'].mean()20将过滤消费总额大于20的数据。如果我们需要对分组数据进行变换,则使用transform()函数。例如,如下代码对按day分组的数据求均值后,将其作为新列添加回原来的df_tips中,结果如图5所示。
图7.5 数据变换
除了filter()和transform()操作,我们也可以对组对象执行apply操作。例如,我们可以按性别分组后计算小费占总账单的比例,代码如下。
相关推荐
- win7x86是32位还是64位
-
32位win7x86是32位操作系统,win7x64是64位操作系统。扩展资料Windows7,中文名称视窗7,是由微软公司(Microsoft)开发的操作系统,内核版本号为WindowsNT...
- 用我告诉你安装win7(安装win7教程)
-
方法一:使用工具在线一键下载安装win7(win7正式版只需使用正版密钥激活即可)1、在电脑安装好小白一键重装系统工具打开,选择原版win7旗舰版系统,点击安装此系统。2、等待软件自动下载系统镜像文件...
- sd卡如何修复(如何修复sd卡视频教程)
-
修复SD卡的三个步骤如下:1.使用磁盘检测工具检查SD卡的错误:您可以使用Windows操作系统中自带的磁盘检查工具或第三方软件来检查并修复SD卡中的错误。2.格式化SD卡:如果检查后发现错误无法...
- 安卓手机杀毒软件哪个最好用
-
腾讯手机管家的守护老人安全功能版本我在用,我来说说吧。此版本是专门为守护老人安全设计推出的,不但有效拦截诈骗短信,电话,木马病毒,钓鱼网址,辟谣功能可以帮助老人立即分辨养生讯息,银行卡故障讯息,保险异...
- xp3用什么模拟器打开(xp3用什么模拟器打开好)
-
可以按照以下的步骤排查解决:首先,游戏必须要使kirikiri引擎,这点可以从文件中是否含有部分xp3后缀的文件来判断然后用模拟器打开date.xp3就行了,部分汉化游戏是直接打开exe程序如果遇到d...
- 固态硬盘用mbr还是guid(固态硬盘guid好还是mbr好)
-
如果电脑原装系统是win8或者以上的,那么硬盘分区表格式为GUID(GPT)格式的;如果是win7以下的,那么一般就是MBR的。主引导记录(MBR)是计算机开机后访问硬盘时所必须要读取的首个扇区,由分...
- 为什么fps大神都是400dpi(fps为什么高)
-
400DPI,在游戏里调节不同英雄的鼠标灵敏度,可以保证最小范围微调改动鼠标移动速度。因为DPI和灵敏度是乘积关系。举个例子:如果你玩麦克雷时鼠标DPI是3200,游戏内灵敏度是1。但你切换到源氏和闪...
- 系统集成项目管理工程师难考吗
-
系统集成项目管理工程师考试的普遍通过率是在10%左右,但是并不表示考试真的有那么难。因为考试本身没有报考条件的限制,且考试报名费用很低,很多人都不重视考试。所以通过率普遍偏低,只要你认真备考,有一...
- 360影视大全下载2025免费版(下载360影视大全最新版下载安装到手机版)
-
你好朋友360影视大全里的很多视频都是免费的,建议安装最新的360影视大全就可以了打开360视频,搜索自己需要的视频,点击360播放器右下角的下载箭头,即可将视频进行下载,下载完毕之后视频会保存在36...
- 360安全卫士手机版下载(360安全卫士官方免费下载手机版5.5.0)
-
相当靠谱360手机卫士是一款由奇虎网推出的功能强、效果好、受用户欢迎的上网安全软件。360安全卫士拥有查杀木马、清理插件、修复漏洞、电脑体检、保护隐私等多种功能,并独创了“木马防火墙”“360密盘”等...
- deepin和统信uos(统信和deepin的区别)
-
差不多。1Deepin原名LinuxDeepin、deepinos、深度操作系统,于2014年4月改名Deepin。deepin团队基于Qt/C++(用于前端)和Go(用于后端)开发了的全新深度桌...
- 三星驱动(三星驱动板)
-
驱动是必须装的,但不需要单独安装驱动。 1、电脑的所有硬件,必然要装驱动,键盘、鼠标什么的,都是有驱动的。驱动是软件和硬件结合的桥梁。但多数普通常见的硬件,驱动是widnows系统自带的,不需要用户...
- u盘启动杀毒软件(u盘杀毒系统)
-
有,但是主要是专杀工具,全面的综合杀毒软件基本上没有,因为没什么用。 1、放在U盘里的杀毒软件,就是不安装,也不监控,只杀毒的软件。 2、目前的杀毒软件的工作机制,主要是监控,监控电脑不感染病...
- 联想维修站点查询官网(联想 维修 服务网点)
-
您可以在联想的官方网站上查询到附近的授权维修服务点,或者拨打联想的客服电话寻求帮助。在维修服务点,您可以享受到专业的维修服务,包括硬件故障、软件问题、系统优化等方面的维护和维修。维修人员将会根据您的电...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
