整理20个Pandas统计函数(pandas的count函数)
off999 2024-09-27 13:52 36 浏览 0 评论
大家好,最近整理了pandas中20个常用统计函数和用法,建议收藏学习~
模拟数据
为了解释每个函数的使用,模拟了一份带有空值的数据:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.DataFrame({
"sex":["male","male","female","female","male"],
"age":[22,24,25,26,24],
"chinese":[100,120,110,100,90],
"math":[90,np.nan,100,80,120], # 存在空值
"english":[90,130,90,80,100]})
df
描述统计信息describe
descirbe方法只能针对序列或数据框,一维数组是没有这个方法的;同时默认只能针对数值型的数据进行统计:
DataFrame.describe(percentiles=None,include=None,exclude=None)
- percentiles:可选择的百分数,列表形式;数值在0-1之间,默认是[.25,.5,.75]
- include/exclude:包含和排除的数据类型信息
返回的信息包含:
- 非空值的数量count;特例:math字段中有一个空值
- 均值mean
- 标准差std
- 最小值min
- 最大值max
- 25%、50%、75%分位数
df.describe()
添加了参数后的情况,我们发现:
- sex字段的相关信息也被显示出来
- 显示的信息更丰富,多了unique、top、freq等等
非空值数量count
返回的是每个字段中非空值的数量
In [5]:
df.count()
Out[5]:
sex 5
age 5
chinese 5
math 4 # 包含一个空值
english 5
dtype: int64
求和sum
In [6]:
df.sum()
在这里我们发现:如果字段是object类型的,sum函数的结果就是直接将全部取值拼接起来
Out[6]:
sex malemalefemalefemalemale # 拼接
age 121 # 相加求和
chinese 520
math 390.0
english 490
dtype: object
最大值max
In [7]:
df.max()
针对字符串的最值(最大值或者最小值),是根据字母的ASCII码大小来进行比较的:
- 先比较首字母的大小
- 首字母相同的话,再比较第二个字母
Out[7]:
sex male
age 26
chinese 120
math 120.0
english 130
dtype: object
最小值min
和max函数的求解是类似的:
In [8]:
df.min()
Out[8]:
sex female
age 22
chinese 90
math 80.0
english 80
dtype: object
分位数quantile
返回指定位置的分位数
In [9]:
df.quantile(0.2)
Out[9]:
age 23.6
chinese 98.0
math 86.0
english 88.0
Name: 0.2, dtype: float64
In [10]:
df.quantile(0.25)
Out[10]:
age 24.0
chinese 100.0
math 87.5
english 90.0
Name: 0.25, dtype: float64
In [11]:
df.quantile(0.75)
Out[11]:
age 25.0
chinese 110.0
math 105.0
english 100.0
Name: 0.75, dtype: float64
通过箱型图可以展示一组数据的25%、50%、75%的中位数:
In [12]:
plt.figure(figsize=(12,6))#设置画布的尺寸
plt.boxplot([df["age"],df["chinese"],df["english"]],
labels = ["age","chinese","english"],
# vert=False,
showmeans=True,
patch_artist = True,
boxprops = {'color':'orangered','facecolor':'pink'}
# showgrid=True
)
plt.show()
箱型图的具体展示信息:
均值mean
一组数据的平均值
In [13]:
df.mean()
Out[13]:
age 24.2
chinese 104.0
math 97.5
english 98.0
dtype: float64
通过下面的例子我们发现:如果字段中存在缺失值(math存在缺失值),此时样本的个数会自动忽略缺失值的总数
In [14]:
390/4 # 个数不含空值
Out[14]:
97.5
中值/中位数median
比如:1,2,3,4,5 的中位数就是3
再比如:1,2,3,4,5,6 的中位数就是 3+4 = 3.5
In [15]:
df.median()
Out[15]:
age 24.0
chinese 100.0
math 95.0
english 90.0
dtype: float64
众数mode
一组数据中出现次数最多的数
In [16]:
df.mode()
Out[16]:
最大值索引idmax
idxmax() 返回的是最大值得索引
In [17]:
df["age"].idxmax()
Out[17]:
3
In [18]:
df["chinese"].idxmin()
Out[18]:
4
不能字符类型的字段使用该函数,Pandas不支持:
In [19]:
df["sex"].idxmax()
最小值索引idxmin
返回最小值所在的索引
In [20]:
df["age"].idxmin()
Out[20]:
0
In [21]:
df["math"].idxmin()
Out[21]:
3
In [22]:
df["sex"].idxmin()
不能字符类型的字段使用该函数,Pandas不支持:
方差var
计算一组数据的方差,需要注意的是:numpy中的方差叫总体方差,pandas中的方差叫样本方差
标准差(或方差)分为 总体标准差(方差)和 样本标准差(方差)
- 前者分母为n,右pian的;后者分母为n-1,是无偏的
- pandas里是算无偏的;numpy里是有偏的
In [23]:
df.var()
Out[23]:
age 2.200000
chinese 130.000000
math 291.666667 # pandas计算结果
english 370.000000
dtype: float64
In [24]:
df["math"].var()
Out[24]:
291.6666666666667
In [25]:
np.var(df["math"]) # numpy计算结果
Out[25]:
218.75
In [26]:
np.var(df["age"])
Out[26]:
1.7600000000000002
In [27]:
np.var(df["english"])
Out[27]:
296.0
标准差std
返回的是一组数据的标准差
In [28]:
df.std()
Out[28]:
age 1.483240
chinese 11.401754
math 17.078251
english 19.235384
dtype: float64
In [29]:
np.std(df["math"])
Out[29]:
14.79019945774904
In [30]:
np.std(df["english"])
Out[30]:
17.204650534085253
In [31]:
np.std(df["age"])
Out[31]:
1.32664991614216
如何理解pandas和numpy两种方法对方差的求解不同:
平均绝对偏差mad
In [32]:
df.mad()
Out[32]:
age 1.04
chinese 8.80
math 12.50
english 13.60
dtype: float64
以字段age为例:
In [33]:
df["age"].mad()
Out[33]:
1.0399999999999998
In [34]:
df["age"].tolist()
Out[34]:
[22, 24, 25, 26, 24]
In [35]:
age_mean = df["age"].mean()
age_mean
Out[35]:
24.2
In [36]:
(abs(22-age_mean) + abs(24-age_mean) + abs(25-age_mean)
+ abs(26-age_mean) + abs(24-age_mean)) / 5
Out[36]:
1.0399999999999998
偏度-skew
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
偏度(Skewness)亦称偏态、偏态系数,表征概率分布密度曲线相对于平均值不对称程度的特征数。
直观看来就是密度函数曲线尾部的相对长度。定义上偏度是样本的三阶标准化矩:
In [37]:
df.skew()
Out[37]:
age -0.551618
chinese 0.404796
math 0.752837
english 1.517474
dtype: float64
In [38]:
df["age"].skew()
Out[38]:
-0.5516180692881046
峰度-kurt
返回的是峰度值
In [39]:
df.kurt()
Out[39]:
age 0.867769
chinese -0.177515
math 0.342857
english 2.607743
dtype: float64
In [40]:
df["age"].kurt()
Out[40]:
0.8677685950413174
In [41]:
df["math"].kurt()
Out[41]:
0.3428571428571434
绝对值abs
返回数据的绝对值:
In [45]:
df["age"].abs()
Out[45]:
0 22
1 24
2 25
3 26
4 24
Name: age, dtype: int64
如果存在缺失值,绝对值函数求解后仍是NaN:
In [46]:
df["math"].abs()
Out[46]:
0 90.0
1 NaN
2 100.0
3 80.0
4 120.0
Name: math, dtype: float64
绝对值函数是针对数值型的字段,不能对字符类型的字段求绝对值:
In [47]:
# 字符类型的数据报错
df["sex"].abs()
元素乘积prod
In [48]:
df.prod()
Out[48]:
age 8.236800e+06
chinese 1.188000e+10
math 8.640000e+07
english 8.424000e+09
dtype: float64
In [49]:
df["age"].tolist()
Out[49]:
[22, 24, 25, 26, 24]
In [50]:
22 * 24 * 25 * 26 * 24
Out[50]:
8236800
累计求和cumsum
In [51]:
df.cumsum()
累计乘积cumprod
In [52]:
df["age"].cumprod()
Out[52]:
0 22
1 528
2 13200
3 343200
4 8236800
Name: age, dtype: int64
In [53]:
df["math"].cumprod()
Out[53]:
0 90.0
1 NaN
2 9000.0
3 720000.0
4 86400000.0
Name: math, dtype: float64
In [54]:
# 字符类型字段报错
df["sex"].cumprod()
20个统计函数
最后再总结下Pandas中常用来描述统计信息的函数:
原文链接:
https://mp.weixin.qq.com/s/QVAPbiAKzD0OS0V2VQN2BA
相关推荐
- 戴尔官网官方网站(戴尔产品官网)
-
查询步骤如下:1.在戴尔电脑的后盖上找到服务编号,并记录下来。2.之后搜索戴尔官网,在打开的官网界面中点击上方的支持选项,并点击产品支持。3.在打开的产品支持界面中,输入电脑后盖上的服务编号。4.如果...
- 黑鲨u盘重装系统教程(黑鲨u盘重装系统步骤8)
-
U盘重装WIn10系统:1、用【u深度u盘启动盘制作工具】制作u盘启动盘,插入电脑usb接口,设置好开机启动项进入u深度主菜单界面,选择“【02】u深度win8pe标准版(新机器)”并回车,2、在u深...
- 电子邮件免费注册入口(电子邮件在线注册)
-
1.在网页上搜索maiI163邮箱登录,如果有邮箱账号密码的话就直接输入并点击“登录”,没有的话就点击“立即注册”。2.点击“立即注册”后进入页面,输入信息点击“注册”。3.注册成功后就直接搜索登录。...
-
- win7如何快速启动(windows7如何快速启动)
-
打开操作系统运行:输入"cmd"并点击回车:系统命令提示符自动打开:使用方法直接运行start打开一个新的命令提示符窗口:运行start+文件的绝对存储路径打开对应的文件:运行start+文件夹路径打开对应...
-
2025-12-29 13:03 off999
- 怎么升级到win11(怎么升级到win11专业版)
-
Windows11可以在「开始菜单-设置-Windows更新」中进行手动更新。如果您想主动更新,需先确保您的电脑符合Windows11的最低系统要求。接着,打开「Windows更...
- 微信好友误删了怎么加回来(微信好友误删了怎么加回来免费)
-
看到他的评论的话,你可以去你发过的内容里去看看。<br/><br/>好友验证的消息、语音)或者朋友圈内容:<br/>如果你这个朋友喜欢和你在朋友圈聊天的话,你他的手机号也有的话方法添加里输入就可...
-
- access安装包(access安装包怎么安装)
-
要下载并安装MicrosoftAccess,可以按照以下步骤进行操作:1.打开您的电脑的浏览器(如谷歌浏览器、火狐浏览器等)。2.在浏览器的搜索栏中输入"下载MicrosoftAccess"。3.从搜索结果中选择适...
-
2025-12-29 11:51 off999
- 云骑士装机大师官方网站(云骑士装机大师软件下载)
-
就是感觉正规吧,还有就是小白那种的比较多,专业店一忽悠就掏钱做系统了。懂装机的哪有花钱去装系统的不靠谱,因为会造成个人信息的泄露。云骑士装机大师是网络装机系统,在网络上能够实现一键装机,非常的简洁方便...
- 万能钥匙下载免费(安心上网万能钥匙下载免费)
-
行1.使用手机功能表中自带的浏览器上网,直接搜索需要的软件进行下载安装(下载安卓版本格式为apk)。2.使用电脑下载APK格式的安装包,连接数据线传输至手机,操作手机在应用程序-我的文件中找到安装包,...
- 500兆宽带用什么路由器(家用路由器什么牌子好 信号强)
-
1、飞鱼星千兆无线路由器家用2600M双频企业级高速穿墙500M光纤游戏加速VW1900/千兆双频/1900M/大型企业路由器无线500m推荐理由:可以提供企业级别的性能,空旷环境覆盖更广大,...
- xp系统怎么卸载软件(xp怎么卸载程序)
-
1、选中此电脑,点击鼠标右键。2、选择属性点击一下。3、在打开的界面选择控制面板。4、点击程序选项下方的卸载。5、选择要卸载的程序软件,点击鼠标右键。6、点击弹出的选项卸载/更改。7、也可以使用电脑管...
- 笔记本电脑系统修复软件(笔记本电脑程序修复)
-
1、超级兔子2013系统修复软件超级兔子是一款完整的系统维护工具。拥有电脑系统评测、垃圾清理和注册表清理、可疑文件和插件检测、网页防护等功能,同时自带一些实用的系统工具,可清理你大多数的文件、注册表里...
- 联想保修服务包括哪些(联想保修都保修什么)
-
1、保修36个月的硬件包括:CPU、内存。2、保修24个月的硬件包括:主板、显卡、LCD屏、硬盘、电源适配器、键盘、鼠标模块。3、保修12个月的硬件包括:LCD之附件、光驱、DVD、CDR/W、软驱...
- 系统科学大会(中国系统科学学会)
-
2021年各种科学大会的召开时间取决于疫情的发展和国家政策的调整。一些大型的国际科学会议可能会推迟或者采用线上形式进行,以保障参会人员的安全和健康。同时,一些国内的学术会议也会受到疫情的影响,需要推迟...
- win10系统下载的内容在哪(win10下载的软件在哪个文件夹)
-
进入C:\Windows\SoftwareDistribution\Download目录下,通过win10应用商店中下载的安装包都放在此目录下。进入C:\Windows\SoftwareDistrib...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
