使用Scikit-Learn了解决策树分类
off999 2024-11-26 07:24 37 浏览 0 评论
决策树是用于分类和回归任务的最基本的机器学习工具之一。在这篇文章中,我将介绍-
- 以基尼杂质为标准的决策树算法拆分原则。
- 决策树在现实生活数据分类中的应用。
- 创建一个管道,并使用GridSearchCV为分类任务选择最佳参数。
决策树
决策树(以下简称DT)算法的思想是学习一组if/else问题来进行决策。决策树可以组合数值数据和分类数据。一些用于决策树的术语如下图所示
在这里,我们看到了如何根据节点在DT中的位置划分节点。首先,我们需要学习如何选择根节点,在这里我们需要学习确定节点的标准之一,即基尼杂质。
基尼杂质:
基尼杂质(Gini Impurity)以意大利统计学家Corrado Gini的名字命名。Gini杂质可以被理解为一个最小化误分类概率的标准。为了便于理解,让我们从一个非常简单的机器学习数据集来开始,根据不同的天气条件,我们决定是否玩户外游戏 。根据定义,只有一个类的数据集的Gini杂质为0。建立决策树时,我们的想法是选择具有最少Gini杂质的特征作为根节点,依此类推。
在这里,我们看到根据4个特征(Outlook, Temperature, Humidity, Wind),决定是否打网球。那么根节点将是什么特征呢?这将使用基尼杂质。让我们从“ Outlook”特征开始。重要的是要注意,当“ Outlook”是overcast时,结果总是Yes。该节点只有一类样本(如下图所示)。
由于这些是分类变量,因此如果我们要应用决策树分类器并拟合数据,则首先需要创建虚拟变量。
在这里,我们可以确定一件事,即一旦创建了决策树,根节点肯定就是特征'Outlook_Overcast'。让我们看一下决策树(如下图所示)。当'Outlook_Overcast'≤0.5为False时,即'Outlook Overcast'为1时,我们有一个纯样本的叶节点,其基尼杂质为0。
对于根节点,让我们计算基尼杂质。因为我们有9个1(Yes)和5个0(“No”),所以基尼杂质约为0.459。下一个节点为“ Humidity_High”,因为该特征将为我们提供最少的基尼杂质。对于像这样的小型数据集,我们总是可以使用Pandas data-frame为每个特征计算基尼杂质。一旦将“ Outlook_Overcast”作为根节点,我们就会在叶节点中获得4个样本(“Yes”)。在剩下的10个样本中,我们分别有5个“Yes”和“No”。然后选择“ Humidity_High”作为特征,节点的基尼杂质为0.5,依此类推。
从某种意义上说,基尼不纯性计算可能会比熵具有一点优势,因为为熵较大的数据集构建决策树可能花费更少的时间。
决策树实例:银行定期存款数据集:
在这里,我将使用UC Irvine机器学习存储库中的Bank Marketing Data-Set(https://archive.ics.uci.edu/ml/datasets/Bank+Marketing)。网站上陈述的数据集摘要为
摘要:数据与葡萄牙银行机构的直接营销活动(电话)有关。分类的目的是预测客户是否将认购定期存款(变量y)。
让我们使用Pandas加载机器学习数据集
共有16个特征,包括分类变量和数值变量,样本总数为11162。首先,我们检查标签(“yes”,“No”)的分布方式。我们可以使用以下Seaborn countplot 。
数据集略微偏态,rejections(“No”)记录稍多。因此,稍后将数据集拆分为训练集和测试集时,我们将使用分层。我们还可以使用Matplotlib Hist检查某些数字变量的分布,如下所示
数值变量的相关图(使用Seaborn Heatmap绘制)显示出特征之间的相关性很小。由于存在多个分类变量,因此我们需要将它们转换为虚拟变量。我删除了特征“duration”,因为如数据集描述中所述,此特征会极大地影响目标变量(duration= 0时,y ='No')。
下一步是选择特征和标签
下一步是将数据集分为训练集和测试集-
应用决策树分类器:
接下来,创建StandardScaler和DT分类器的管道。我们可以从Scikit-Learn 导入DT分类器。为了确定DT分类器的最佳参数(划分准则和最大树深度),我还使用了网格搜索交叉验证。下面的Python代码很容易理解。
接下来,我应用了3、4、5fold交交叉验证来确定最佳参数
在这里,我们看到了如何在网格搜索交叉验证中成功地应用决策树分类器来确定和优化最佳拟合参数。由于有46个特征,因此很难在一个页面中可视化树。因此,我通过删除“month”特征(因为它创建了最大数量的虚拟变量,12)来简化数据框架,并再次进行拟合过程,现在的特征数量为35。
让我们以最大深度为6并以“ Gini”为标准绘制决策树。使用Scikit Learn可视化树需要一些Python代码如下
让我们更详细地了解树的根和前几个节点-
我们决策树的前几个节点!
在这里,我们看到已选择“ contanct_unknown”作为根节点的特征。训练样本总数为8929,基尼杂质为?0.5。接下来的深度,我们看到选择了一个数值变量'pdays'作为特征来c拆分样本,依此类推。由于有如此多的特征,手动构建树会非常困难。我们还可以使用DecisionTreeClassifier类的feature_importance_attribute来绘制哪些特征对于构建树很重要。该图如下所示
正如树'contanct_unknown'所期望的那样,它是树的根节点,具有最高的重要性。
在本文中,我们学习了使用基尼杂质作为拆分标准来构建机器学习决策树的基础。我们还实现了网格搜索交叉验证,以为模型选择最佳参数以对实际数据集进行分类。
相关推荐
- win7更换壁纸(win7更换壁纸显示黑色)
-
1、首先点开桌面左下角的开始按钮然后在弹出的界面中找到控制面板并打开。2、在控制面板界面的个性化专栏中找到在找到屏幕保护程序并打开。3、在打开的新界面中找到屏幕保护程序并将选项更改为“无”保存后就完成...
- 如何获取windows7正版(如何获得正版win7)
-
关于这个问题,获得Windows7激活密钥的方法有几种:1.在购买Windows7时,通常会附带一张带有激活密钥的正版产品密钥卡。您可以查看产品盒内的卡片或说明书,以获取此密钥。2.如果您购买...
- 重装系统win7旗舰版62位(如何用重装系统win7旗舰版)
-
要重装Windows7系统,可以按照以下步骤进行操作:1.准备计算机:确保计算机已经安装了Windows11操作系统,因为Windows7的兼容性问题可能会影响安装过程。如果计算机上没有安装W...
- tp link app(TP LINKapp下载)
-
tplink手机app官方版是一款专为TP-LINK路由器手机设置应用,能够更好的管理TP-LINK路由器。tplink手机客户端特色1.实时获取路由器状态消息2.本地管理局域网内的TP-LINK路由...
- 如何彻底关掉windows更新(如果关闭windows更新)
-
方法一:Windows设置 要想关闭Win10自动更新,比较简单的一种方法就是进入到Windows设置中,将Windows更新直接关闭。步骤如下: 1、按“Windows+I”键,打开Wind...
- pe怎么制作u盘启动盘(pe制作u盘启动工具)
-
制作U盘启动PE的方法:1、准备一个8G或以上容量的U盘,接入电脑,u盘启动PE制作工具会自动识别u盘,2、接着,设置模式和格式,一般默认选择USB—HDD以及NTFS,点击一键制作成U盘启动PE...
- iso镜像系统下载(下载iso镜像文件)
-
vmwareiso镜像文件可以从VMware官网下载。具体的下载步骤如下:1.打开VMware官网,进入产品下载页面。2.在产品下载页面,选择需要下载的VMware产品,比如VMwareWork...
- 电脑分区工具哪个好用(电脑分区工具下载)
-
电脑分区助手使用方法1.首先先打开我们的分区助手。2.我们把鼠标放上去然后点击鼠标右键选择合并并分区。3.然后勾选上我们未分配的空间。4.然后就扩展完成了。1、《CrystalDiskMark》是一款...
- 字体大小怎么调(win10字体大小怎么调)
-
在大多数文字处理软件和编辑器中,设置字体大小通常是通过以下方法之一完成的:1.使用快捷键:常见的快捷键是使用Ctrl(或Command键)+"+"或"-...
- 联想电脑重装系统下载(联想系统重装软件)
-
联想电脑重装系统步骤:1、制作好U盘启动盘,然后把下载的联想win7系统iso文件直接复制到U盘的GHO目录下:2、在联想电脑上插入U盘,重启后不停按F12或Fn+F12快捷键打开启动菜单,选择U盘项...
-
- qq靓号注册入口(qq靓号注册免费申请网址)
-
目前是没有qq靓号申请器的,因为qq靓号都是由腾讯qq直售代理的,想要申请只能在会员界面支付若干个月会员便可以获得,不同的靓号价格可能不一样,使用期限必须要有qq超级会员。QQ靓号是腾讯公司推出的一种增值QQ号码,是腾讯QQ新推出的一款邮箱...
-
2026-01-11 01:03 off999
- 电脑显示已连接上但是无法上网
-
排查处理:一、若使用的是公共网络:1.尝试在人流量较少的地方使用,并确认热点可正常使用。2.请确认是否需通过浏览器登录网站注册后才能上网。二、若使用的是家庭网络,建议连接其他wifi或手机个人热点进行...
- 手动更新显卡驱动(更新显卡驱动教程)
-
方法如下:1.打开设备管理器。在Windows10中可以键入"设备管理器"来搜索。2.展开"显示适配器"选项。3.右键单击要更新的显卡并选择"更新驱动程...
- 联想笔记本技术客服电话(联想笔记本技术客服电话)
-
联想个人及家庭用户购买与服务热线400-990-8888联想商用客户服务热线400-810-6666联想ThinkPad产品服务热线400-100-6000联想ThinkPad产品购买咨询400-89...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
