百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

用于数据挖掘的化整为零策略(Split-Apply-Combine)

off999 2024-10-13 04:14 36 浏览 0 评论

在典型的探索性数据分析中,我们通过在某个粒度级别上划分数据集,然后在该粒度上聚合数据,以了解集中趋势,从而解决这个问题。同样,Hadley Wickham撰写的著名(必读)论文将Split-Apply-Combine策略概述为数据分析中最常见的策略之一。无论是营销细分还是任何行为研究,我们在分析过程中都会使用这种技术。

本文试图说明Split-Apply-Combine策略,其中我们将一个大问题分解为小的可管理部分(Split),独立操作每个部分(Apply)然后将所有部分重新组合在一起(Combine)。通过在SQL和Python中使用GroupBy函数,在Tableau中使用LOD,以及在R中使用plyr函数,许多现有工具都可以使用Split-Apply-Combine。在本文中,我们将不仅仅讨论这种策略的实现,还将看到这种策略在机器学习特征工程中的一些相关应用。

在Python中,我们使用GroupBy执行此操作,它涉及Split-Apply-Combine策略的三个步骤中的一个或多个步骤。让我们从定义以下三个步骤开始:

  1. Split:根据某些条件将数据拆分为组,从而创建GroupBy对象。(我们可以使用列或列的组合将数据拆分成组)
  2. Apply:分别对每个组应用一个函数。(在此步骤中聚合、transform或过滤数据)
  3. Combine:将结果组合成数据结构(Pandas系列,Pandas DataFrame)

示例数据

为了更深入,让我们创建一个虚拟数据作为示例。

以具有键值对的字典形式创建示例数据集。

为了总结整个数据,我们将使用seaborn库来创建可视化。

在创建和汇总数据之后,作为第一步,我们将继续进行Split-Apply-Combine的第一部分。

Split :

在此步骤中,我们将通过基于“颜色”列进行分组,从dataframe “data_sales”创建组。

一旦我们在dataframe上应用groupby()函数,它就会创建groupby对象。我们可以将这个对象看作是每个组的一个单独的dataframe。每个组都是基于分组列中的类别创建的(在我们的例子中,从dataframe的“colour”列中创建4个组,分别是 ‘Black’, ‘Blue’, ‘Red’, ’Yellow’ )。

GroupBy对象以键值对的形式存储各个组的数据,如dictionary中所示。要知道组名,我们可以使用attribute ' keys '或使用GroupBy对象的' groups '属性。

为了进一步明确组及其内容,我们可以运行循环并打印键值对。

通过上面的例子,我希望我们已经对GroupBy对象以及它的一些属性和方法进行了一些清晰的说明。有了这个,现在让我们继续前进到下一个阶段,即APPLY。

Apply:

Apply步骤可以通过三种方式执行:聚合,transform和过滤。

聚合:

在由多列创建的组中聚合:

通过选择多列来创建组,我们可以增加聚合的粒度。例如,在Split时,我们根据“colour”列创建了4个组,其中有4个颜色类别,因此我们有4个组。现在,如果包含'product'列,有2个类别('type A'和'type B'),以及'colour'列,那么我们将有8个类别(例如'type A-Blue', 'A-Black'..总共(4 x 2)。从下面提到的代码中可以更清楚地看出这一点。

上面的代码使用sum(),因此我们得到销售和事务的总和到由'product'和'color'列组合定义的粒度级别。

需要注意的是,我们使用了参数'as_index = True',因此我们可以看到'product'和'color'列作为索引。相反,如果我们采用与False相同的参数,那么在我们的输出中,我们不会将'product'和'color'列作为索引而是作为列。

在上面的例子中,我们只对所有列使用了单一类型的聚合函数; 但是,如果我们想要聚合具有不同聚合函数的不同列,那么我们可以使用聚合函数的自定义聚合函数。为此,我们可以将字典传递给聚合函数,将列名称称为“键”,将函数名称称为“值”。有趣的是,我们也可以将多个聚合函数传递给列。让我们看一下下面的示例代码,以便更清晰。

真实世界的聚合函数应用:

在这个例子中,我们试图找到“哪一种产品及其颜色组合的变异最小”。我们已经这样做了,根据乘积和颜色列对dataframe进行分组,然后计算每组的变异系数。下面的Python代码将使它更清晰。

transform:

变换函数在机器学习的特征工程中具有很高的潜在效用。它是与GroupBy对象一起使用的函数/方法。如果有人使用了Tableau LOD(固定)函数,那么他们将更容易理解变换函数。下图说明了使用变换函数的Split-Apply-Combine。

聚合过程中我们看到的形状输入dataframe得到减少(减少)的行数;但是,需要注意的是,在使用transform方法时,产生的输出dataframe在输出中的行数与在输入中的行数相同。输出保留了dataframe的长度,它分两个阶段进行。首先,在Apply阶段,应用了变换函数(sum();如图所示),并且在此阶段减少了行数。其次,在combine阶段,将Apply阶段的结果广播到原始粒度级别,从而产生具有与输入阶段中的dataframe的长度相同的长度的dataframe。

为了更清楚,我们可以使用我们在本文中使用的相同虚构数据集的示例代码。

从现在开始我们对转换函数有了一些了解,现在让我们谈谈它在机器学习数据清理和机器学习特征工程中的实用性。

我们可以定义一个自定义函数并使用它来转换列。例如,我们可以通过变换函数使用基于组类别的列标准化的常见示例。需要注意的是,此标准化不是直接应用于整个列,而是基于组应用于列(平均值是组平均值,std dev是组的std dev)。下面的例子将更多地阐述这个概念。

在上面的代码中,我们使用了lambda函数,在lambda函数中,我们在dataframe的每一行使用了两个方法mean和standard deviation(std)。这里可能会产生一种混淆,即“当它意图进行分组计算时,变换函数如何进行行计算?”。看下Python的示例代码。

我希望从上面的代码中可以清楚地看到转换操作。我们现在应该转到Apply部分的Filter操作。

过滤:

从名称本身可以看出,它用于从dataframe中过滤组。下面提到的Python代码说明了操作。

过滤很容易理解操作,SPLIT-APPLY-COMBINE的 APPLY部分即将结束。现在,我们将转到最后一部分,即COMBINE。

COMBINE:

在上述讨论中,联合部分已经涵盖; 但是,有一点很重要,我想分享一下。

聚合并不总是导致dataframe的创建。它主要取决于参数'as_index',如果此参数的值为'True',则它取决于我们应用聚合函数的列数。

我希望这些代码和相关讨论不仅可以帮助读者更好地直观地理解Split-Apply-Combine策略,还可以帮助读者在数据挖掘中应用这种技术。

相关推荐

win10从u盘启动怎么设置(win10怎么从u盘启动电脑)

1.回到桌面。点击开始徽标,点击开始菜单左侧的设置。2.设置界面点击更新和安全。3.进入更新和安全界面,点击左侧的恢复选项。4.进入恢复界面,点击高级启动下面的立即重新启动。5.插入自己的U盘,等待...

系统大全网站(系统大全网站推荐)

下载时发生错误可能是以下原因:1.你的网速过慢,网页代码没有完全下载就运行了,导致不完整,当然就错误了。请刷新。2.网页设计错误,导致部分代码不能执行。请下载最新的遨游浏览器。3.你的浏览器不兼容导致...

win10官方启动盘(win10官方启动盘怎么用)

1、在开始菜单搜索“设置”,打开“设置”;2、点击“更新与安全”,在左侧菜单栏点击“恢复”;3、点击“启动项”,在弹出的窗口中会显示当前可以启动的项目,点击“编辑”;4、在打开的“编辑启动项”窗口中,...

win10系统安装不了(win10 安装不了)

电脑装不上win10系统可能是因为以下几个原因导致的原因一:win10安装文件不对我们在安装win10之前,要确保下载到安装包真实可用的,否则安装肯定会有问题,建议下载安全可靠的安装包!原因二:系统文...

国内dns哪个最快(dns开启好还是关闭好)

移动dns设置首选114.114.114.114,它又好又快。首选DNS和备用DNS都是一种域名系统,这两种域名系统有着先后之分,如果在首选DNS正常的情况下,就用首选DNS地址。当首选DNS服务器出...

winxp安装盘(winxp系统安装)

xp系统安装步骤如下1、将下载的xp系统iso压缩包文件下载到C盘之外的分区,比如下载到D盘,右键使用WinRAR等工具解压到当前文件夹或指定文件夹,不能解压到C盘和桌面,否则无法安装;?2、解压之后...

现在的win11稳定了吗(win11稳定嘛)

windows10更稳定,由于win11刚刚推出没多久,稳定差不够好,兼容性也有待提升,无论是应用还是游戏都会遇到不明程度的问题,因此,在日常的使用过程中,我们还是应当以稳定性为优先,选择win10是...

xp安装包下载到手机(xp系统安装包)

手机是基于ARM架构的处理器,而WindowsXP是基于x86架构的操作系统,因此无法直接在手机上安装WindowsXP。除非您的手机是使用Intel处理器,但这种情况非常罕见。如果您需要在手机上...

如何查看硬盘序列号(windows如何查看硬盘序列号)

1.打开开始菜单栏,输入【cmd】点击【确定】;2.在命令窗口依次输入【diskpart】-【listdisk】-【selectdisk0】;3.选好要查看的硬盘后,接着输入【detaildi...

虚拟机安装win7教程(虚拟机安装win7教程图解)

1.首先,下载并安装虚拟机软件,如VMwareWorkstation、VirtualBox等。2.打开虚拟机软件,创建一个新的虚拟机。3.在创建虚拟机的过程中,选择安装Windows7专业版的IS...

系统脱敏法的操作程序如何

系统脱敏疗法(systematicdesensitization)又称交互抑制法,是由美国学者沃尔普创立和发展的。这种方法主要是诱导求治者缓慢地暴露出导致神经症焦虑、恐惧的情境,并通过心理的放松状态...

闪迪u盘低级格式化工具(闪迪u盘格式化分配单元大小)

闪迪U盘格式化后速度变慢的可能原因及解决方法如下:文件系统问题:格式化时选择的文件系统类型可能会影响U盘的性能。常见的文件系统类型包括FAT32、NTFS和exFAT等。如果文件系统类型不合适,可能会...

psd文件下载(psd格式下载网站)

  1、在photoshop中,不能通过置入的方法来加载PSD文件,因为,通过置入的方法加载PSD文件,它是以合并图层的方法把PSD文件加入,这样,就失去了PSD文件的所有图层信息。  2、在文档中想...

宏碁官网下载win7系统(宏碁官方系统)

宏基笔记本win8系统换成win7步骤:1、更改bios设置,关闭“SecureBoot”功能,启用传统的“LegacyBoot”。2、制作u启动U盘启动盘,下载win7系统安装包3、设置U盘启动...

如何重装系统win7旗舰版32位

首先下载制作一个带系统的启动u盘,然后按以下步骤安装:1、首先关闭电脑上面的杀毒软件,2、进入bios选择u盘启动。3、插入启动u盘重新启动电脑4、进入pe系统镜像环节,选择要安装的系统(32位),然...

取消回复欢迎 发表评论: