百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

10 个鲜为人知的 Python 可视化概念和技巧

off999 2024-11-15 23:09 26 浏览 0 评论



数据可视化

可视化是我们以各种可视化形式描述数据的操作,从图表、图形到信息图形。它是探索性数据分析 (EDA) 中最重要的部分之一,因为它使我们能够轻松掌握变量之间的关系以及对后期特征工程和建模有用的数据的任何独特特征。在本文中,我向您介绍了 10 个 Python 可视化概念和技巧,它们鲜为人知,但对于将它们添加到您的可视化库中很有用。

先导入相关的Python库和数据集,示例的数据集包括客户ID,性别,年龄,年收入,消费评估分数。

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

dataFile = pd.read_csv("/home/test.csv")
dataFile.head(10)

使用matplotlib style

Python 中的 Matplotlib 允许我们指定用于可视化的特定样式。这些风格使我们的可视化更容易理解,更容易阅读和解释,有时还为它们增添了审美趣味,使它们对客户更具说服力。以下是可以使用样式列表

['seaborn-deep',
'seaborn-muted',
'bmh',
'seaborn-white',
'dark_background',
'seaborn-notebook',
'seaborn-darkgrid',
'grayscale',
'seaborn-paper',
'seaborn-talk',
'seaborn-bright',
'classic',
'seaborn-colorblind',
'seaborn-ticks',
'ggplot',
'seaborn',
'_classic_test',
'fivethirtyeight',
'seaborn-dark-palette',
'seaborn-dark',
'seaborn-whitegrid',
'seaborn-pastel',
'seaborn-poster']

在开始构建可视化之前,运行你需要的样式的代码,比如使用“fivethirtyeight”

plt.style.use("fivethirtyeight")

设置和更新参数

有时候在制作的每个可视化指定参数很麻烦,如果需要为制作的所有可视化定义一组参数。在这种情况下,可以使用 matplotlib 的 rcParams 方法。

# 使用 matplotlib.pyplot 的 rcParams 方法设置图形大小
plt.rcParams['figure.figsize'] = (16, 9)
# 设置折线图的线宽
import matplotlib as mpl 
mpl.rcParams ['lines.linewidth'] = 2

也可以通过 seaborn 的 set 方法设置参数或设置

# 另一种设置图形大小的方法是使用 seaborn 的 set 方法
sns.set(rc={'figure.figsize':(10,8)})

我们可以使用 matplotlib 中的 pylab 方法来更新参数

import matplotlib.pylab as pylab
# 指定你想要覆盖/更新的各种参数
params = {'legend.fontsize': 'large',
'figure.figsize': (16,9),
'axes.labelsize': 'x-large',
'axes.titlesize':'small',
'xtick.labelsize':'medium',
'ytick.labelsize':'x-large'}
pylab.rcParams.update(params)

请注意,可以使用 7 个不同的选项来指定大小,如下所示

Size: {'xx-small', 'x-small', 'small', 'medium', 'large', 'x-large', 'xx-large'}

甜甜圈图(Donut Plot)

甜甜圈图是一个很好的图表,用于可视化不同类别的比例。当您为每个部分的实际比例值添加注释时,它会更有效,因为具有相似比例的部分可能难以相互区分。

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

dataFile = pd.read_csv("test.csv")
dataFile.head(10)
plt.style.use("fivethirtyeight")
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
size = dataFile['性别'].value_counts()
colors = ['pink', 'lightblue']
labels = "男", "女"
explode = [0.05, 0.03] 
donut = plt.Circle((0,0), 0.6, color = 'white')
plt.pie(size, colors = colors, labels = labels, shadow = True, explode = explode, autopct = '%.2f%%')
plt.title('性别分布', fontsize = 20)
p = plt.gcf()
p.gca().add_artist(donut)
plt.legend()
plt.show()

群体图(Swarm Plot)

Swarm Plot 是一种可视化类型,它允许我们可视化每个类别的值分布。它比其他类型的可视化(如箱线图)更有用,因为它具有粒度显示(即显示每个数据点的值),如下所示。这样做的缺点是,如果有太多具有相似值范围的数据点,则可视化可能看起来过于聚集并难以解释可视化。我建议将它用于不太大的数据集。

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

dataFile = pd.read_csv("test.csv")
plt.style.use("fivethirtyeight")
sns.catplot(x='性别', y='年纪', data=dataFile)

箱线图

Boxenplot 由 seaborn 软件包提供,看起来几乎像一个箱形图。箱线图的主要改进是更精细的分位数显示,为用户的可视化添加了更多信息。

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

dataFile = pd.read_csv("test.csv")
plt.style.use("fivethirtyeight")
sns.boxenplot(x='性别', y='消费者年收入(千元)', data=dataFile, palette = 'copper')

散点矩阵图

散点矩阵图包含数值变量的单变量和多变量可视化。如果有 n 个数值变量,它会显示 nxn 个网格,并且对角线位置的网格包含每个变量的单变量分布图(例如直方图),而其他网格向我们显示解释不同变量组合之间关系的散点图。请看下面的可视化

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

dataFile = pd.read_csv("test.csv")
plt.style.use("fivethirtyeight")
from pandas.plotting import scatter_matrix
pd.plotting.scatter_matrix(dataFile.drop('客户ID',axis=1), figsize=(10,10))

密度图

密度图是一种类似于直方图的分布图,但不同之处在于它描绘的是概率密度函数,而不是纯计数或比例,“这是一种估计随机变量的概率密度函数 (PDF) 的非参数方法,它使用高斯核进行估计并包括自动带宽确定。”

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

dataFile = pd.read_csv("test.csv")
plt.style.use("fivethirtyeight")
fig, ax = plt.subplots(1,1,figsize=(9,5))
sns.kdeplot(dataFile[dataFile['性别']=='男']['消费者年收入(千元)'], ax=ax) 
sns.kdeplot(dataFile[dataFile['性别']=='女']['消费者年收入(千元)'], ax=ax)
plt.legend(['性别:男', '性别:女'])

安德鲁斯曲线

因为人类可以感知和理解的最大维度数是三个,所以任何超过这个维度数的特征组合都很难将它们放在画布上。为了解决这个问题,有几种可视化以我们可以消化的方式描述三个维度上的多维数据。安德鲁斯曲线就是其中之一。它通过以下方式转换多变量观察:

IRIS 数据中对应于不同物种的线用不同的颜色标记,我们看到一些线有很多重叠,而另一些则没有。这让我们了解变量中的哪些类别具有与其他类别不同的潜在分布或模式。

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from pandas.plotting import andrews_curves

dataFile = pd.read_csv("test.csv")
plt.style.use("fivethirtyeight")

andrews_curves(dataFile.drop("客户ID", axis=1).sample(30), "性别",colormap="rainbow")

堆积面积图

堆积面积图可用于显示不同类别的比例或值随时间的细分。看看下面的可视化。

在上面看到的,我们可以很容易地看到类别和 A、B 和 C 的细分是如何随时间变化的。例如,从 2017 年开始,A、B 和 C 的细分相对均匀。但是,B 和 C 的部分在 2018 年之前呈指数下降,而 A 的部分则保持相对不变。

树图

类似于饼图、条形图和甜甜圈图,树状图向我们展示了不同比例的类别的视觉展示。我个人认为它比前面提到的三个情节更有效,尤其是当你有很多类别要比较时。例如,在甜甜圈图中,许多具有相似比例的类别显示为圆圈中的角度可能很难感知。另一方面,三棵树图将比例显示为一个大矩形的石板中不同大小的矩形,这使我们更容易立即了解类别在大小方面如何相互比较。

在下面的代码中,我们选取了前 20 个口袋妖怪,并根据前 20 个口袋妖怪的主要类型创建了一个树形图.

import pandas as pd
import squarify
import matplotlib.pyplot as plt
import seaborn as sb

# read the dataset and create a DataFrame
dataset = pd.read_csv("pokemons_dataset.csv")
df = pd.DataFrame(dataset)

top20_pokemon = df.loc[:, ["Name","Total",'Primary Type']].sort_values(by="Total", ascending=False)[:20]

plt.figure(figsize=(12, 6))
plt.axis("off")
axis = squarify.plot(top20_pokemon['Primary Type'].value_counts(),
                     label=top20_pokemon['Primary Type'].value_counts().index,
                     color=sb.color_palette("tab20", len(
                         top20_pokemon['Primary Type'].value_counts())),
                     pad=1,
                     text_kwargs={'fontsize': 18})
axis.set_title("Primary Data Types Of Top 20 Pokemons", fontsize=24)

在本文中,介绍了10 种不太为人所知和使用的可视化和技巧,但对于添加到您的数据可视化工具包中很有用。最重要的是,我个人认为理解每个可视化的作用,它所显示的信息,它什么时候是最有效的,以及如何用它来向观众传达你想要的信息是最重要的,而不是对你知道如何创建多少可视化感到自豪。

相关推荐

360浏览器官方网站(360浏览器-影视新闻资讯小说浏览)
360浏览器官方网站(360浏览器-影视新闻资讯小说浏览)

360极速浏览器的入口是http://chrome.360.cn/360极速浏览器(360chrome)无缝融合双核引擎,采用了最快速的Chromium内核及兼容性最好的IE内核,360极速浏览器简洁人性化的设计,更好用,360极速浏览器囊...

2026-01-16 18:15 off999

酷狗音乐官网首页(酷狗音乐旗下最新最全的在线正版音乐网站)
  • 酷狗音乐官网首页(酷狗音乐旗下最新最全的在线正版音乐网站)
  • 酷狗音乐官网首页(酷狗音乐旗下最新最全的在线正版音乐网站)
  • 酷狗音乐官网首页(酷狗音乐旗下最新最全的在线正版音乐网站)
  • 酷狗音乐官网首页(酷狗音乐旗下最新最全的在线正版音乐网站)
不受限制的万能浏览器手机版

在万能浏览器里面,UC浏览器是最好用的。UC浏览器是阿里巴巴旗下的一个浏览器,它整体上给人的感觉是非常友好而且非常流畅,关键的是它很少有广告,同时呢也不会劫持别人的这个浏览器,而且他这个视频看起来非...

下载安装qq浏览器(下载安装QQ浏览器)
下载安装qq浏览器(下载安装QQ浏览器)

若手机不能下载软件,建议您:1.查看软件下载说明,是否对软件安装平台、手机系统版本等有要求。2.检查下载的软件格式是否正确:安卓系统手机支持的软件格式为.APK。3.检查手机内存是否已满,打开手机设定-存储-可用空间。4.查看下载的...

2026-01-16 17:43 off999

目前最好用的网络电话(哪款网络电话好用)

好用的网络电话软件有爱科手机网络电话软件、阿里通网络电话、skype网络电话、有信、爱聊。1、爱科手机网络电话软件:爱科可以在手机上打网络电话。是一款开放式网络通信软件,融合免费网络电话、免费短信、网...

免费听歌大全(免费听歌大全蒙古歌曲)

答案是,我推荐你去下一个青桃app听歌软件比较好,哪里有海量的免费音乐可以任意随听,免费下载都可以,而且音质都很不错!有许多软件能够免费听歌,以下是一些常见的免费听歌软件:1.Spotify:Spo...

58同城二手车交易网(58同城二手车交易网官网)

58同城上的二手车可以买,有靠谱的,也有不靠谱的。58同城上有真实车主,但更多的是冒充车主的车商,关键取决于消费者的辨别能力。如果是不懂行的个人想买辆靠谱二手车的话,最简单快速的办法还是找个规模大的、...

安卓浏览器(安卓浏览器在哪里打开)

安卓浏览器简单的说就是在安卓手机上使用的浏览器,稍微复杂点就是基于liunx开发的apk程序用于搜索浏览解析文件的一个软件。遵循万维网的HTTP和FTP协议编译网络共享的数据通过搜索引擎转变为我们通常...

海马苹果助手下载官网(海马苹果助手在线下载)

1.当然有用了,推荐海马苹果助手,算是目前国内运行最稳定,性能最佳的一款苹果助手了2.海马玩手机助手还行,功能比较强大,体验很好,无需账户注册,可以直接免费正版应用软件下载安装3.目前比较好用的手机助...

租房子58同城(建湖租房子58同城)

自建房也可以在58同城网发布房租出租信息。首先,你要注册58同城网的账号,就可以发布房屋出租信息。填写的时候填写自有房产“我是房东”,详细填写房租的基本情况,交通情况,对租客的要求等信息,就可以发布了...

qq游戏大厅2025(QQ游戏大厅2025绿色版)

1.可以直接在漫展官方APP中进行购买门票。2.直接去漫展厅购买门票。3.有漫展代购者进行售卖门票,可以去进行购买。而这三种方式是购买漫展门票最快,最安全的购买方式。2023年cm漫展郑州市市区门票可...

看球直播app下载(看球帝app手机版免费下载)

电视直播ios版是一款连接了电视网为您提供电视直播信号的手机直播应用。无论是央视各台还是全国各大卫视都可以在这里免费收看,周五看浙江卫视《中国新歌声》,周六看湖南卫视《快乐大本营》,周末看东方卫视《极...

手机测wifi网速在线测试(我的网速测试)

在手机上进行Wi-Fi测速,您可以使用以下步骤: 1.打开手机的Wi-Fi功能,并连接到要测试的Wi-Fi网络。 2.打开手机浏览器,访问一个在线Wi-Fi测速网站,例如s...

腾讯对战平台官网(腾讯对战平台叫什么名字)

用管理员身份运行试试看,不如换个win7,下载一个小白,10分钟搞定。win7现在是市面上电脑最多的系统,兼容各种游戏辅助,各种游戏,各种办公软件,我自己就是win10,新电脑,我换了7,打开腾讯...

珍爱网(珍爱网免费征婚交友平台)

珍爱网上的人的确是真人,但那些人的资料况你很难判断它的真实性。如何你想在上面找到珍爱,那你得有优秀且真实的资本,要不然珍爱网就是珍爱网而已。灰姑娘很难遇上白马王子,除非你是漂亮的灰姑娘。癞蛤蟆也很难遇...

取消回复欢迎 发表评论: