使用Scikit-Learn了解决策树分类
off999 2024-11-26 07:24 22 浏览 0 评论
决策树是用于分类和回归任务的最基本的机器学习工具之一。在这篇文章中,我将介绍-
- 以基尼杂质为标准的决策树算法拆分原则。
- 决策树在现实生活数据分类中的应用。
- 创建一个管道,并使用GridSearchCV为分类任务选择最佳参数。
决策树
决策树(以下简称DT)算法的思想是学习一组if/else问题来进行决策。决策树可以组合数值数据和分类数据。一些用于决策树的术语如下图所示
在这里,我们看到了如何根据节点在DT中的位置划分节点。首先,我们需要学习如何选择根节点,在这里我们需要学习确定节点的标准之一,即基尼杂质。
基尼杂质:
基尼杂质(Gini Impurity)以意大利统计学家Corrado Gini的名字命名。Gini杂质可以被理解为一个最小化误分类概率的标准。为了便于理解,让我们从一个非常简单的机器学习数据集来开始,根据不同的天气条件,我们决定是否玩户外游戏 。根据定义,只有一个类的数据集的Gini杂质为0。建立决策树时,我们的想法是选择具有最少Gini杂质的特征作为根节点,依此类推。
在这里,我们看到根据4个特征(Outlook, Temperature, Humidity, Wind),决定是否打网球。那么根节点将是什么特征呢?这将使用基尼杂质。让我们从“ Outlook”特征开始。重要的是要注意,当“ Outlook”是overcast时,结果总是Yes。该节点只有一类样本(如下图所示)。
由于这些是分类变量,因此如果我们要应用决策树分类器并拟合数据,则首先需要创建虚拟变量。
在这里,我们可以确定一件事,即一旦创建了决策树,根节点肯定就是特征'Outlook_Overcast'。让我们看一下决策树(如下图所示)。当'Outlook_Overcast'≤0.5为False时,即'Outlook Overcast'为1时,我们有一个纯样本的叶节点,其基尼杂质为0。
对于根节点,让我们计算基尼杂质。因为我们有9个1(Yes)和5个0(“No”),所以基尼杂质约为0.459。下一个节点为“ Humidity_High”,因为该特征将为我们提供最少的基尼杂质。对于像这样的小型数据集,我们总是可以使用Pandas data-frame为每个特征计算基尼杂质。一旦将“ Outlook_Overcast”作为根节点,我们就会在叶节点中获得4个样本(“Yes”)。在剩下的10个样本中,我们分别有5个“Yes”和“No”。然后选择“ Humidity_High”作为特征,节点的基尼杂质为0.5,依此类推。
从某种意义上说,基尼不纯性计算可能会比熵具有一点优势,因为为熵较大的数据集构建决策树可能花费更少的时间。
决策树实例:银行定期存款数据集:
在这里,我将使用UC Irvine机器学习存储库中的Bank Marketing Data-Set(https://archive.ics.uci.edu/ml/datasets/Bank+Marketing)。网站上陈述的数据集摘要为
摘要:数据与葡萄牙银行机构的直接营销活动(电话)有关。分类的目的是预测客户是否将认购定期存款(变量y)。
让我们使用Pandas加载机器学习数据集
共有16个特征,包括分类变量和数值变量,样本总数为11162。首先,我们检查标签(“yes”,“No”)的分布方式。我们可以使用以下Seaborn countplot 。
数据集略微偏态,rejections(“No”)记录稍多。因此,稍后将数据集拆分为训练集和测试集时,我们将使用分层。我们还可以使用Matplotlib Hist检查某些数字变量的分布,如下所示
数值变量的相关图(使用Seaborn Heatmap绘制)显示出特征之间的相关性很小。由于存在多个分类变量,因此我们需要将它们转换为虚拟变量。我删除了特征“duration”,因为如数据集描述中所述,此特征会极大地影响目标变量(duration= 0时,y ='No')。
下一步是选择特征和标签
下一步是将数据集分为训练集和测试集-
应用决策树分类器:
接下来,创建StandardScaler和DT分类器的管道。我们可以从Scikit-Learn 导入DT分类器。为了确定DT分类器的最佳参数(划分准则和最大树深度),我还使用了网格搜索交叉验证。下面的Python代码很容易理解。
接下来,我应用了3、4、5fold交交叉验证来确定最佳参数
在这里,我们看到了如何在网格搜索交叉验证中成功地应用决策树分类器来确定和优化最佳拟合参数。由于有46个特征,因此很难在一个页面中可视化树。因此,我通过删除“month”特征(因为它创建了最大数量的虚拟变量,12)来简化数据框架,并再次进行拟合过程,现在的特征数量为35。
让我们以最大深度为6并以“ Gini”为标准绘制决策树。使用Scikit Learn可视化树需要一些Python代码如下
让我们更详细地了解树的根和前几个节点-
我们决策树的前几个节点!
在这里,我们看到已选择“ contanct_unknown”作为根节点的特征。训练样本总数为8929,基尼杂质为?0.5。接下来的深度,我们看到选择了一个数值变量'pdays'作为特征来c拆分样本,依此类推。由于有如此多的特征,手动构建树会非常困难。我们还可以使用DecisionTreeClassifier类的feature_importance_attribute来绘制哪些特征对于构建树很重要。该图如下所示
正如树'contanct_unknown'所期望的那样,它是树的根节点,具有最高的重要性。
在本文中,我们学习了使用基尼杂质作为拆分标准来构建机器学习决策树的基础。我们还实现了网格搜索交叉验证,以为模型选择最佳参数以对实际数据集进行分类。
相关推荐
- PYTHON-简易计算器的元素介绍
-
[烟花]了解模板代码的组成importPySimpleGUIassg#1)导入库layout=[[],[],[]]#2)定义布局,确定行数window=sg.Window(...
- 如何使用Python编写一个简单的计算器程序
-
Python是一种简单易学的编程语言,非常适合初学者入门。本文将教您如何使用Python编写一个简单易用的计算器程序,帮助您快速进行基本的数学运算。无需任何高深的数学知识,只需跟随本文的步骤,即可轻松...
- 用Python打造一个简洁美观的桌面计算器
-
最近在学习PythonGUI编程,顺手用Tkinter实现了一个简易桌面计算器,功能虽然不复杂,但非常适合新手练手。如果你正在学习Python,不妨一起来看看这个项目吧!项目背景Tkint...
- 用Python制作一个带图形界面的计算器
-
大家好,今天我要带大家使用Python制作一个具有图形界面的计算器应用程序。这个项目不仅可以帮助你巩固Python编程基础,还可以让你初步体验图形化编程的乐趣。我们将使用Python的tkinter库...
- 用python怎么做最简单的桌面计算器
-
有网友问,用python怎么做一个最简单的桌面计算器。如果只强调简单,在本机运行,不考虑安全性和容错等的话,你能想到的最简单的方案是什么呢?我觉得用tkinter加eval就够简单的。现在开整。首先创...
- 说好的《Think Python 2e》更新呢!
-
编程派微信号:codingpy本周三脱更了,不过发现好多朋友在那天去访问《ThinkPython2e》的在线版,感觉有点对不住呢(实在是没抽出时间来更新)。不过还好本周六的更新可以实现,要不就放一...
- 构建AI系统(三):使用Python设置您的第一个MCP服务器
-
是时候动手实践了!在这一部分中,我们将设置开发环境并创建我们的第一个MCP服务器。如果您从未编写过代码,也不用担心-我们将一步一步来。我们要构建什么还记得第1部分中Maria的咖啡馆吗?我们正在创...
- 函数还是类?90%程序员都踩过的Python认知误区
-
那个深夜,你在调试代码,一行行检查变量类型。突然,一个TypeError错误蹦出来,你盯着那句"strobjectisnotcallable",咖啡杯在桌上留下了一圈深色...
- 《Think Python 2e》中译版更新啦!
-
【回复“python”,送你十本电子书】又到了周三,一周快过去一半了。小编按计划更新《ThinkPython2e》最新版中译。今天更新的是第五章:条件和递归。具体内容请点击阅读原文查看。其他章节的...
- Python mysql批量更新数据(兼容动态数据库字段、表名)
-
一、应用场景上篇文章我们学会了在pymysql事务中批量插入数据的复用代码,既然有了批量插入,那批量更新和批量删除的操作也少不了。二、解决思路为了解决批量删除和批量更新的问题,提出如下思路:所有更新语...
- Python Pandas 库:解锁 combine、update 和compare函数的强大功能
-
在Python的数据处理领域,Pandas库提供了丰富且实用的函数,帮助我们高效地处理和分析数据。今天,咱们就来深入探索Pandas库中四个功能独特的函数:combine、combine_fi...
- 记录Python3.7.4更新到Python.3.7.8
-
Python官网Python安装包下载下载文件名称运行后选择升级选项等待安装安装完毕打开IDLE使用Python...
- Python千叶网原图爬虫:界面化升级实践
-
该工具以Python爬虫技术为核心,实现千叶网原图的精准抓取,突破缩略图限制,直达高清资源。新增图形化界面(GUI)后,操作门槛大幅降低:-界面集成URL输入、存储路径选择、线程设置等核心功能,...
- __future__模块:Python语言版本演进的桥梁
-
摘要Python作为一门持续演进的编程语言,在版本迭代过程中不可避免地引入了破坏性变更。__future__模块作为Python兼容性管理的核心机制,为开发者提供了在旧版本中体验新特性的能力。本文深入...
- Python 集合隐藏技能:add 与 update 的致命区别,90% 开发者都踩过坑
-
add函数的使用场景及错误注意添加单一元素:正确示例:pythons={1,2}s.add(3)print(s)#{1,2,3}错误场景:试图添加可变对象(如列表)会报错(Pytho...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)