机器学习之分类回归树(python实现CART)
off999 2024-11-26 07:24 36 浏览 0 评论
机器学习之分类回归树(python实现CART)
之前有文章介绍过决策树(ID3)。简单回顾一下:ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的。按照某种特征切分数据后,该特征在以后切分数据集时就不再使用,因此存在切分过于迅速的问题。ID3算法还不能处理连续性特征。 下面简单介绍一下其他算法:
CART 分类回归树
CART是Classification And Regerssion Trees的缩写,既能处理分类任务也能做回归任务。
CART树的典型代表时二叉树,根据不同的条件将分类。
CART树构建算法 与ID3决策树的构建方法类似,直接给出CART树的构建过程。首先与ID3类似采用字典树的数据结构,包含以下4中元素:
- 待切分的特征
- 待切分的特征值
- 右子树。当不再需要切分的时候,也可以是单个值
- 左子树,类似右子树。
过程如下:
- 寻找最合适的分割特征
- 如果不能分割数据集,该数据集作为一个叶子节点。
- 对数据集进行二分割
- 对分割的数据集1重复1, 2,3 步,创建右子树。
- 对分割的数据集2重复1, 2,3 步,创建左子树。
明显的递归算法。
通过数据过滤的方式分割数据集,返回两个子集。
def splitDatas(rows, value, column): # 根据条件分离数据集(splitDatas by value, column) # return 2 part(list1, list2) list1 = [] list2 = [] if isinstance(value, int) or isinstance(value, float): for row in rows: if row[column] >= value: list1.append(row) else: list2.append(row) else: for row in rows: if row[column] == value: list1.append(row) else: list2.append(row) return list1, list2 复制代码
划分数据点
创建二进制决策树本质上就是递归划分输入空间的过程。
代码如下:
# gini() def gini(rows): # 计算gini的值(Calculate GINI) length = len(rows) results = calculateDiffCount(rows) imp = 0.0 for i in results: imp += results[i] / length * results[i] / length return 1 - imp 复制代码
构建树
def buildDecisionTree(rows, evaluationFunction=gini):
# 递归建立决策树, 当gain=0,时停止回归
# build decision tree bu recursive function
# stop recursive function when gain = 0
# return tree
currentGain = evaluationFunction(rows)
column_lenght = len(rows[0])
rows_length = len(rows)
best_gain = 0.0
best_value = None
best_set = None
# choose the best gain
for col in range(column_lenght - 1):
col_value_set = set([x[col] for x in rows])
for value in col_value_set:
list1, list2 = splitDatas(rows, value, col)
p = len(list1) / rows_length
gain = currentGain - p * evaluationFunction(list1) - (1 - p) * evaluationFunction(list2)
if gain > best_gain:
best_gain = gain
best_value = (col, value)
best_set = (list1, list2)
dcY = {'impurity': '%.3f' % currentGain, 'sample': '%d' % rows_length}
#
# stop or not stop
if best_gain > 0:
trueBranch = buildDecisionTree(best_set[0], evaluationFunction)
falseBranch = buildDecisionTree(best_set[1], evaluationFunction)
return Tree(col=best_value[0], value = best_value[1], trueBranch = trueBranch, falseBranch=falseBranch, summary=dcY)
else:
return Tree(results=calculateDiffCount(rows), summary=dcY, data=rows)
复制代码
上面代码的功能是先找到数据集切分的最佳位置和分割数据集。之后通过递归构建出上面图片的整棵树。
剪枝
在决策树的学习中,有时会造成决策树分支过多,这是就需要去掉一些分支,降低过度拟合。通过决策树的复杂度来避免过度拟合的过程称为剪枝。 后剪枝需要从训练集生成一棵完整的决策树,然后自底向上对非叶子节点进行考察。利用测试集判断是否将该节点对应的子树替换成叶节点。 代码如下:
def prune(tree, miniGain, evaluationFunction=gini): # 剪枝 when gain < mini Gain, 合并(merge the trueBranch and falseBranch) if tree.trueBranch.results == None: prune(tree.trueBranch, miniGain, evaluationFunction) if tree.falseBranch.results == None: prune(tree.falseBranch, miniGain, evaluationFunction) if tree.trueBranch.results != None and tree.falseBranch.results != None: len1 = len(tree.trueBranch.data) len2 = len(tree.falseBranch.data) len3 = len(tree.trueBranch.data + tree.falseBranch.data) p = float(len1) / (len1 + len2) gain = evaluationFunction(tree.trueBranch.data + tree.falseBranch.data) - p * evaluationFunction(tree.trueBranch.data) - (1 - p) * evaluationFunction(tree.falseBranch.data) if gain < miniGain: tree.data = tree.trueBranch.data + tree.falseBranch.data tree.results = calculateDiffCount(tree.data) tree.trueBranch = None tree.falseBranch = None 复制代码
当节点的gain小于给定的 mini Gain时则合并这两个节点.。
最后是构建树的代码:
if __name__ == '__main__': dataSet = loadCSV() decisionTree = buildDecisionTree(dataSet, evaluationFunction=gini) prune(decisionTree, 0.4) test_data = [5.9,3,4.2,1.5] r = classify(test_data, decisionTree) print(r) 复制代码
可以打印decisionTree可以构建出如如上的图片中的决策树。 后面找一组数据测试看能否得到正确的分类。
完整代码和数据集请查看:
github:CART
总结:
- CART决策树
- 分割数据集
- 递归创建树
参考文章:
CART分类回归树分析与python实现
CART决策树(Decision Tree)的Python源码实现
相关推荐
- 如何重装系统win7视频教程(如何重装系统win7具体步骤)
-
不需要重装知识点延伸,更换CPU-BIOS设置1)未更改过bios设置,确认主板支持cpu型号直接插上即可,bios会自适应2)之前更改过bios设置,在更换cpu之前应需要将bios恢复出厂...
- 惠普售后维修官网电话(惠普官网维修中心电话)
-
要找到惠普的售后服务,你可以通过以下几种方式进行联系。首先,你可以访问惠普的官方网站,在网站上找到售后服务的相关信息,包括联系电话和在线支持。其次,你可以拨打惠普的客户服务热线,向客服人员咨询并安排售...
- 笔记本迈克菲怎么卸载(笔记本迈克菲怎么卸载不了)
-
戴尔笔记本电脑上的迈克菲中心可以卸载,迈克菲中心为一款杀毒软件,如果自身笔记本电脑不需要可以进行卸载。迈克菲中心卸载步骤:1、打开桌面“此电脑”。2、在“此电脑”界面中点击选择“卸载或更改程序”。3、...
- windows10怎么进入修复模式(win10如何进入修复系统)
-
1、 进入WindowsRE恢复模式。非正常启动三次,可进入WindowsRE恢复模式。具体操作方法如下:按住电源按钮10秒钟以关闭设备。再次按电源按钮以打开设备。看到Windo...
- 现在哪个浏览器好用(现在哪种浏览器好用)
-
一、谷歌浏览器谷歌浏览器是公认最好用的,这个可以从市场占有率看出端倪,超过三分之二的用户使用谷歌浏览器。Chrome浏览器以简洁快速著称,不管是普通用户还是开发人员,chrome浏览器都是首选。Chr...
- win10系统还是win7系统好(是win10好还是win7好)
-
就我个人觉得win7系统和win10系统都挺好用的,主要看个人习惯,win10系统也推出了3年了,相信很多用户也已经尝试过win10系统,操作上没有什么很大的区别,就是界面有些不同,这就看个人喜欢了。...
- 重装系统u盘制作教程(重装系统u盘怎么制作)
-
以下是重装电脑系统的一般步骤:在正常可用的电脑上下载并安装一个制作启动U盘的工具,例如Rufus、WinToUSB等。使用该工具将操作系统安装文件写入U盘,并设置U盘为启动盘。将U盘插入需要重装系统的...
- 从win8装回win7系统(win8.1怎么装回win7)
-
重装电脑,而且您的【电脑系统没有完全崩溃】,那么可以用【【【硬盘安装系统的方法】】】来装系统,无需借助光盘或者u盘,简单快速。电脑硬盘安装系统的方法如下:1.到WIN7旗舰版基地去http://ww...
- 查看电脑硬件信息的4个技巧
-
1、点击下面任务栏中的windows图标或按键盘windows键打开开始菜单。2、在开始菜单中找到设置或settings,通常是右上角的齿轮按钮。3、然后在设置界面中找到system选项,点击进入。4...
- 老式电脑的显卡在哪里(老式电脑主机显卡在哪)
-
十年前的老电脑没必要了,换新吧,估计接口什么也都有限制了我看了下你这个是品牌电脑,代工板的应该是没有显卡插槽的,有的话也是AGP的,可以去淘片AGPATI9000系列的卡或者6200660...
- word产品密钥2016(word产品密匙2016)
-
word2016激活密钥有两种类型:永久激活码和KMS期限激活密钥。其中,永久激活密钥可以使用批量授权版永久激活密钥进行激活,如所示;而KMS期限激活密钥需要使用KMS客户端密钥进行激活,如所示。另外...
- 如何选择电脑配置(如何选择电脑配置的高低)
-
选择电脑配置时,首先要考虑自己的需求和预算。确定用途(如游戏、办公、设计等),然后选择适合的处理器、内存、显卡、存储和显示器等。处理器要根据性能和功耗进行选择,内存要足够大以支持多任务处理,显卡要根据...
- win10下方任务栏无反应(win10下方任务栏消失)
-
按ctrl+alt+delete键win10系统电脑中,按键盘上的ctrl+alt+delete键2点击任务管理器点击出现窗口选项中的“任务管理器”3点击重新启动打开管理器后,右击Windows资源管...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
