当前位置：网站首页 > 技术资源 > 正文

Seaborn常见绘图总结-Categorical plots(分类图)

off999 2024-11-24 20:07 33 浏览 0 评论

上篇说到使用seaborn来绘制Relational plots（关系图），本篇来重点介绍Categorical plots（分类图）。

这里使用的数据还是seaborn的默认数据，理解数据的含义，对分析问题往往起着事半功倍的效果。

https://github.com/mwaskom/seaborn-data

Categorical plots（分类图）

Categorical plots（分类图）可以具体分为下面三种类型，8个小图：
stripplot（分布散点图）
swarmplot（分布密度散点图）
Categorical distribution plots（分类分布图）
boxplot（箱线图）
violinplot（小提琴图）
boxenplot（字母价值图）
Categorical estimate plots（分类估计图）
pointplot（点图）
barplot（条形图）
countplot（计数统计图）

1 Categorical scatterplots（分类散点图）

1.1 stripplot（分布散点图）

stripplot（分布散点图）的意思就是按照不同类别对样本数据进行分布散点图绘制。stripplot（分布散点图）一般并不单独绘制，它常常与boxplot和violinplot联合起来绘制，作为这两种图的补充。

seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None,hue_order=None, jitter=True, dodge=False, orient=None, color=None,palette=None, size=5, edgecolor='gray', linewidth=0, ax=None, **kwargs)

x，y，data：输入数据可以多种格式传递，在大多数情况下，使用Numpy或Python对象是可能的，但是更可取的是pandas对象，因为相关的名称将用于对轴进行注释。此外，还可以对分组变量使用分类类型来控制情节元素的顺序。
order：用order参数进行筛选分类类别，例如：order=[‘sun’,‘sat’]；
jitter：抖动项，表示抖动程度，可以使float，或者True；
dodge：重叠区域是否分开，当使用hue时，将其设置为True，将沿着分类轴将不同色调级别的条带分开。
orient：“v” | “h”，vertical（垂直）和 horizontal（水平）的意思；

基本的图

tips = sns.load_dataset("tips")
ax = sns.stripplot(x="day", y="total_bill", data=tips)

多增加几个参数的修改：

ax = sns.stripplot(x="day", y="total_bill", hue="smoker",data=tips,
jitter=True,palette="Set2", dodge=True)

1.2 swarmplot（分布密度散点图）

这个函数类似于stripplot()，但是对点进行了调整(只沿着分类轴)，这样它们就不会重叠。这更好地表示了值的分布，但它不能很好地扩展到大量的观测。

seaborn.swarmplot(x=None, y=None, hue=None, data=None, order=None,hue_order=None, dodge=False, orient=None, color=None, palette=None, size=5,edgecolor='gray', linewidth=0, ax=None, **kwargs)

可以看出，swarmplot和stripplot参数上基本一致，少了jitter，因为它显示的是分布密度，不需要添加抖动项。

ax = sns.swarmplot(x="day", y="total_bill", data=tips)

多增加几个参数的修改：

ax = sns.swarmplot(x="day", y="total_bill", hue="smoker",data=tips,palette="Set2", dodge=True)

2 Categorical distribution plots（分类分布图）

2.1 boxplot（箱线图）

boxplot（箱线图，又称为盒须图、盒式图）便于在变量之间或跨类别变量级别比较的方式,显示定量数据的分布情况。框显示数据集的四分位数，线显示分布的其余部分，它能显示出一组数据的最大值、最小值、中位数及上下四分位数，使用四分位数范围函数的方法可以确定“离群值”的点。具体用法如下：

seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None,hue_order=None, orient=None, color=None, palette=None, saturation=0.75,width=0.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs)

saturation：饱和度，可设置为1；
width：float，控制箱型图的宽度大小；
fliersize：float，用于指示离群值观察的标记大小；
whis：可理解为异常值的上限IQR比例；

ax = sns.boxplot(x="day", y="total_bill", data=tips)

#这些参数不一定要加，简单最好，这里只是为了展示参数的含义

ax = sns.boxplot(x="day", y="total_bill", hue="time",data=tips,linewidth=0.5,saturation=1,width=1,fliersize=3)

2.2 violinplot（小提琴图）

violinplot与boxplot扮演类似的角色，箱线图展示了分位数的位置，它显示了定量数据在一个（或多个）分类变量的多个层次上的分布，这些分布可以进行比较。不像箱形图中所有绘图组件都对应于实际数据点，小提琴绘图以基础分布的核密度估计为特征，通过小提琴图可以知道哪些位置的密度较高。在图中，白点是中位数，黑色盒型的范围是下四分位点到上四分位点，细黑线表示须。外部形状即为核密度估计。

这是一种可以同时显示多个数据分布的有效和有吸引力的方法，但请记住，估计过程受样本大小的影响，相对较小的样本的小提琴手看起来可能会显得非常平滑。具体用法如下：

seaborn.violinplot(x=None, y=None, hue=None, data=None, order=None,hue_order=None, bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100,width=0.8, inner='box', split=False, dodge=True, orient=None, linewidth=None,color=None, palette=None, saturation=0.75, ax=None, **kwargs)

bw：‘scott’, ‘silverman’, float，控制拟合程度。在计算内核带宽时，可以引用规则的名称（‘scott’, ‘silverman’）或者使用比例（float）。实际内核大小将通过将比例乘以每个bin内数据的标准差来确定；
cut：空值外壳的延伸超过极值点的密度，float；
scale：“area”, “count”, “width”，用来缩放每把小提琴的宽度的方法；
scale_hue：当使用hue分类后，设置为True时，此参数确定是否在主分组变量进行缩放；
gridsize：设置小提琴图的平滑度，越高越平滑；
inner：“box”, “quartile”, “point”, “stick”, None,小提琴内部数据点的表示。分别表示：箱子，四分位，点，数据线和不表示；
split：是否拆分，当设置为True时，绘制经hue分类的每个级别画出一半的小提琴；

ax = sns.violinplot(x="day", y="total_bill", data=tips)

设置按性别分类，调色为“Set2”，分割，以计数的方式，不表示内部。

ax = sns.violinplot(x="day", y="total_bill", hue="sex",data=tips,palette="Set2", split=True,scale="count", inner=None)

2.3 violinplot+stripplot（小提琴图+分布散点图）

ax = sns.violinplot(x="tip", y="day", data=tips, inner=None,whis=np.inf)
ax = sns.stripplot(x="tip", y="day", data=tips,jitter=True, color="c")

2.4 violinplot+swarmplot（小提琴图+分布密度散点图）

ax = sns.violinplot(x="tip", y="day", data=tips,inner=None, whis=np.inf)
ax = sns.swarmplot(x="tip", y="day", data=tips, color="c")

2.5 boxplot+stripplot（箱线图+分布散点图）

ax = sns.boxplot(x="tip", y="day", data=tips, whis=np.inf)
ax = sns.stripplot(x="tip", y="day", data=tips,jitter=True, color="c")

2.6 boxplot+swarmplot（箱线图+分布密度散点图）

ax = sns.boxplot(x="tip", y="day", data=tips, whis=np.inf)
ax = sns.swarmplot(x="tip", y="day", data=tips, color="c")

3 Categorical estimate plots（分类估计图）

3.1 barplot（条形图）

条形图表示数值变量与每个矩形高度的中心趋势的估计值，用矩形条表示点估计和置信区间，并使用误差线提供关于该估计值附近的不确定性的一些指示。具体用法如下：

seaborn.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,estimator=<function mean>, ci=95, n_boot=1000, units=None, orient=None,color=None, palette=None, saturation=0.75, errcolor='.26', errwidth=None,capsize=None, dodge=True, ax=None, **kwargs)

estimator：用于估计每个分类箱内的统计函数，默认为mean。当然你也可以设置estimator=np.median/np.std/np.var……
order：选择和空值顺序，例如：order=[‘Sat’,‘Sun’]；
ci：允许的误差的范围（控制误差棒的百分比，在0-100之间）,若填写"sd",则用标准误差(默认为95)，也可设置ci=None；
capsize：设置误差棒帽条（上下两根横线）的宽度，float；
saturation：饱和度；
errcolor：表示置信区间的线条的颜色；
errwidth：float，设置误差条线(和帽)的厚度。

根据性别分组：

ax = sns.barplot(x="day", y="total_bill", hue="sex", data=tips)

设置estimator为中位数（numpy的统计函数都可以，只要你觉得有意义），设置误差棒的宽度，误差棒的颜色为“c”。

ax = sns.barplot(x="day", y="total_bill",hue='sex', data=tips,estimator=np.median,capsize=0.2,errcolor='c')

3.2 countplot（计数图）

一个计数图可以被认为是一个分类直方图，而不是定量的变量。基本的api和选项与barplot（）相同，因此您可以比较嵌套变量中的计数。（工作原理就是对输入的数据分类，条形图显示各个分类的数量）。具体参数如下：

seaborn.countplot(x=None, y=None, hue=None, data=None, order=None,hue_order=None, orient=None, color=None, palette=None, saturation=0.75,dodge=True, ax=None, **kwargs)

这里参数并没有太多改变，orient就是改变方向。但是，值得注意的是缺少了一些参数，而且countplot中不能同时输入x和y，却可以使用hue（这我就很纳闷了？？？还望大佬解释解释）。

titanic = sns.load_dataset("titanic")
ax = sns.countplot(x="class", hue="who", data=titanic)

3.3 piontplot（点图）

用散点图符号表示点估计和置信区间，点图代表散点图位置的数值变量的中心趋势估计，并使用误差线提供关于该估计的不确定性的一些指示。点图可能比条形图（barplot）更有用于聚焦一个或多个分类变量的不同级别之间的比较。他们尤其善于表现交互作用：一个分类变量的层次之间的关系如何在第二个分类变量的层次之间变化。连接来自相同色调等级的每个点的线允许交互作用通过斜率的差异进行判断，这比对几组点或条的高度比较容易。具体用法如下：

seaborn.pointplot(x=None, y=None, hue=None, data=None, order=None,hue_order=None, estimator=<function mean>, ci=95, n_boot=1000,units=None, markers='o', linestyles='-', dodge=False, join=True,scale=1, orient=None, color=None, palette=None, errwidth=None,capsize=None, ax=None, **kwargs)

join：默认两个均值点会相连接，若不想显示，可以通过join=False参数实现；
scale：float，均值点（默认）和连线的大小和粗细。

tips = sns.load_dataset("tips")
ax = sns.pointplot(x="time", y="total_bill", data=tips)

尝试更多参数，按性别分组，用中位数进行比较，分开显示，使用调色板，修改标记类型和线条类型（很多参数都不是必要的，这里只是尽量充分介绍其用法）。

ax = sns.pointplot(x="time", y="total_bill", hue="smoker",data=tips,estimator=np.median,dodge=True, palette="Set2",markers=["o", "x"],linestyles=["-", "--"])

3.4 catplot（）

该函数提供了对几个轴级函数的访问，这些函数使用几种可视化表示形式之一显示一个数字变量和一个或多个分类变量之间的关系。其实说白了就是利用kind参数来画前面Categorical plots（分类图）中的任意8个图形。具体如下：

seaborn.catplot(x=None, y=None, hue=None, data=None, row=None, col=None,col_wrap=None, estimator=<function mean>, ci=95, n_boot=1000, units=None,order=None, hue_order=None, row_order=None, col_order=None, kind='strip',height=5, aspect=1, orient=None, color=None, palette=None, legend=True,legend_out=True, sharex=True, sharey=True, margin_titles=False,facet_kws=None, **kwargs)

有没有发现，它和regplot（关系图）的使用方法差不多？

kind：默认strip（分布散点图），也可以选择“point”, “bar”, “count”,
col、row：将决定网格的面数的分类变量，可具体制定；
col_wrap：指定每行展示的子图个数，但是与row不兼容；
row_order, col_order : 字符串列表，安排行和列，以及推断数据中的对象；
height，aspect：与图像的大小有关；
sharex，sharey：bool, ‘col’or ‘row’，是否共享想，x，y坐标；

注：单个图形里面的参数也是可以传入里面的

绘制一个小提琴图，按数据中的kind类别分组（数据中的），不要中心框线。

exercise = sns.load_dataset("exercise")
g = sns.catplot(x="time", y="pulse", hue="kind",data=exercise, kind="violin",inner=None)

使用diet来分成几个图形，并用height、aspect来设置图片比例：

g = sns.catplot(x="time", y="pulse", hue="kind",kind='bar',col="diet",data=exercise,height=4, aspect=0.8)

python散点图

上一篇：简单学Python——matplotlib库5——绘制饼状图
下一篇：Python数据可视化工具画图(八)(气泡图)

Seaborn常见绘图总结-Categorical plots(分类图)

Categorical plots（分类图）

1 Categorical scatterplots（分类散点图）

1.1 stripplot（分布散点图）

1.2 swarmplot（分布密度散点图）

2 Categorical distribution plots（分类分布图）

2.1 boxplot（箱线图）

2.2 violinplot（小提琴图）

2.3 violinplot+stripplot（小提琴图+分布散点图）

2.4 violinplot+swarmplot（小提琴图+分布密度散点图）

2.5 boxplot+stripplot（箱线图+分布散点图）

2.6 boxplot+swarmplot（箱线图+分布密度散点图）

3 Categorical estimate plots（分类估计图）

3.1 barplot（条形图）

3.2 countplot（计数图）

3.3 piontplot（点图）

3.4 catplot（）

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑输入与输出—str()函数

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

苹果手机怎么下载软件并安装

Seaborn常见绘图总结-Categorical plots(分类图)

Categorical plots（分类图）

1 Categorical scatterplots（分类散点图）

1.1 stripplot（分布散点图）

1.2 swarmplot（分布密度散点图）

2 Categorical distribution plots（分类分布图）

2.1 boxplot（箱线图）

2.2 violinplot（小提琴图）

2.3 violinplot+stripplot（小提琴图+分布散点图）

2.4 violinplot+swarmplot（小提琴图+分布密度散点图）

2.5 boxplot+stripplot（箱线图+分布散点图）

2.6 boxplot+swarmplot（箱线图+分布密度散点图）

3 Categorical estimate plots（分类估计图）

3.1 barplot（条形图）

3.2 countplot（计数图）

3.3 piontplot（点图）

3.4 catplot（）

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑 输入与输出—str()函数

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

苹果手机怎么下载软件并安装

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数