百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

机器学习之分类回归树(python实现CART)

off999 2024-11-26 07:24 36 浏览 0 评论

机器学习之分类回归树(python实现CART)

之前有文章介绍过决策树(ID3)。简单回顾一下:ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的。按照某种特征切分数据后,该特征在以后切分数据集时就不再使用,因此存在切分过于迅速的问题。ID3算法还不能处理连续性特征。 下面简单介绍一下其他算法:

CART 分类回归树

CART是Classification And Regerssion Trees的缩写,既能处理分类任务也能做回归任务。

CART树的典型代表时二叉树,根据不同的条件将分类。

CART树构建算法 与ID3决策树的构建方法类似,直接给出CART树的构建过程。首先与ID3类似采用字典树的数据结构,包含以下4中元素:

  • 待切分的特征
  • 待切分的特征值
  • 右子树。当不再需要切分的时候,也可以是单个值
  • 左子树,类似右子树。

过程如下:

  1. 寻找最合适的分割特征
  2. 如果不能分割数据集,该数据集作为一个叶子节点。
  3. 对数据集进行二分割
  4. 对分割的数据集1重复1, 2,3 步,创建右子树。
  5. 对分割的数据集2重复1, 2,3 步,创建左子树。

明显的递归算法。

通过数据过滤的方式分割数据集,返回两个子集。

def splitDatas(rows, value, column):
 # 根据条件分离数据集(splitDatas by value, column)
 # return 2 part(list1, list2)
 list1 = []
 list2 = []
 if isinstance(value, int) or isinstance(value, float):
 for row in rows:
 if row[column] >= value:
 list1.append(row)
 else:
 list2.append(row)
 else:
 for row in rows:
 if row[column] == value:
 list1.append(row)
 else:
 list2.append(row)
 return list1, list2
复制代码

划分数据点

创建二进制决策树本质上就是递归划分输入空间的过程。

代码如下:

# gini()
def gini(rows):
 # 计算gini的值(Calculate GINI)
 length = len(rows)
 results = calculateDiffCount(rows)
 imp = 0.0
 for i in results:
 imp += results[i] / length * results[i] / length
 return 1 - imp
复制代码

构建树

def buildDecisionTree(rows, evaluationFunction=gini):
 # 递归建立决策树, 当gain=0,时停止回归
 # build decision tree bu recursive function
 # stop recursive function when gain = 0
 # return tree
 currentGain = evaluationFunction(rows)
 column_lenght = len(rows[0])
 rows_length = len(rows)
 best_gain = 0.0
 best_value = None
 best_set = None
 # choose the best gain
 for col in range(column_lenght - 1):
 col_value_set = set([x[col] for x in rows])
 for value in col_value_set:
 list1, list2 = splitDatas(rows, value, col)
 p = len(list1) / rows_length
 gain = currentGain - p * evaluationFunction(list1) - (1 - p) * evaluationFunction(list2)
 if gain > best_gain:
 best_gain = gain
 best_value = (col, value)
 best_set = (list1, list2)
 dcY = {'impurity': '%.3f' % currentGain, 'sample': '%d' % rows_length}
 #
 # stop or not stop
 if best_gain > 0:
 trueBranch = buildDecisionTree(best_set[0], evaluationFunction)
 falseBranch = buildDecisionTree(best_set[1], evaluationFunction)
 return Tree(col=best_value[0], value = best_value[1], trueBranch = trueBranch, falseBranch=falseBranch, summary=dcY)
 else:
 return Tree(results=calculateDiffCount(rows), summary=dcY, data=rows)
复制代码

上面代码的功能是先找到数据集切分的最佳位置和分割数据集。之后通过递归构建出上面图片的整棵树。

剪枝

在决策树的学习中,有时会造成决策树分支过多,这是就需要去掉一些分支,降低过度拟合。通过决策树的复杂度来避免过度拟合的过程称为剪枝。 后剪枝需要从训练集生成一棵完整的决策树,然后自底向上对非叶子节点进行考察。利用测试集判断是否将该节点对应的子树替换成叶节点。 代码如下:

def prune(tree, miniGain, evaluationFunction=gini):
 # 剪枝 when gain < mini Gain, 合并(merge the trueBranch and falseBranch)
 if tree.trueBranch.results == None:
 prune(tree.trueBranch, miniGain, evaluationFunction)
 if tree.falseBranch.results == None:
 prune(tree.falseBranch, miniGain, evaluationFunction)
 if tree.trueBranch.results != None and tree.falseBranch.results != None:
 len1 = len(tree.trueBranch.data)
 len2 = len(tree.falseBranch.data)
 len3 = len(tree.trueBranch.data + tree.falseBranch.data)
 p = float(len1) / (len1 + len2)
 gain = evaluationFunction(tree.trueBranch.data + tree.falseBranch.data) - p * evaluationFunction(tree.trueBranch.data) - (1 - p) * evaluationFunction(tree.falseBranch.data)
 if gain < miniGain:
 tree.data = tree.trueBranch.data + tree.falseBranch.data
 tree.results = calculateDiffCount(tree.data)
 tree.trueBranch = None
 tree.falseBranch = None
复制代码

当节点的gain小于给定的 mini Gain时则合并这两个节点.。

最后是构建树的代码:

if __name__ == '__main__':
 dataSet = loadCSV()
 decisionTree = buildDecisionTree(dataSet, evaluationFunction=gini)
 prune(decisionTree, 0.4)
 test_data = [5.9,3,4.2,1.5]
 r = classify(test_data, decisionTree)
 print(r)
复制代码

可以打印decisionTree可以构建出如如上的图片中的决策树。 后面找一组数据测试看能否得到正确的分类。

完整代码和数据集请查看:

github:CART

总结:

  • CART决策树
  • 分割数据集
  • 递归创建树

参考文章:

CART分类回归树分析与python实现

CART决策树(Decision Tree)的Python源码实现

相关推荐

动态桌面软件下载(动态桌面主题下载)
  • 动态桌面软件下载(动态桌面主题下载)
  • 动态桌面软件下载(动态桌面主题下载)
  • 动态桌面软件下载(动态桌面主题下载)
  • 动态桌面软件下载(动态桌面主题下载)
如何重装系统win7视频教程(如何重装系统win7具体步骤)

不需要重装知识点延伸,更换CPU-BIOS设置1)未更改过bios设置,确认主板支持cpu型号直接插上即可,bios会自适应2)之前更改过bios设置,在更换cpu之前应需要将bios恢复出厂...

惠普售后维修官网电话(惠普官网维修中心电话)

要找到惠普的售后服务,你可以通过以下几种方式进行联系。首先,你可以访问惠普的官方网站,在网站上找到售后服务的相关信息,包括联系电话和在线支持。其次,你可以拨打惠普的客户服务热线,向客服人员咨询并安排售...

笔记本迈克菲怎么卸载(笔记本迈克菲怎么卸载不了)

戴尔笔记本电脑上的迈克菲中心可以卸载,迈克菲中心为一款杀毒软件,如果自身笔记本电脑不需要可以进行卸载。迈克菲中心卸载步骤:1、打开桌面“此电脑”。2、在“此电脑”界面中点击选择“卸载或更改程序”。3、...

windows10怎么进入修复模式(win10如何进入修复系统)

1、 进入WindowsRE恢复模式。非正常启动三次,可进入WindowsRE恢复模式。具体操作方法如下:按住电源按钮10秒钟以关闭设备。再次按电源按钮以打开设备。看到Windo...

现在哪个浏览器好用(现在哪种浏览器好用)

一、谷歌浏览器谷歌浏览器是公认最好用的,这个可以从市场占有率看出端倪,超过三分之二的用户使用谷歌浏览器。Chrome浏览器以简洁快速著称,不管是普通用户还是开发人员,chrome浏览器都是首选。Chr...

笔记本电脑怎么恢复出厂设置联想
  • 笔记本电脑怎么恢复出厂设置联想
  • 笔记本电脑怎么恢复出厂设置联想
  • 笔记本电脑怎么恢复出厂设置联想
  • 笔记本电脑怎么恢复出厂设置联想
win10系统还是win7系统好(是win10好还是win7好)

就我个人觉得win7系统和win10系统都挺好用的,主要看个人习惯,win10系统也推出了3年了,相信很多用户也已经尝试过win10系统,操作上没有什么很大的区别,就是界面有些不同,这就看个人喜欢了。...

重装系统u盘制作教程(重装系统u盘怎么制作)

以下是重装电脑系统的一般步骤:在正常可用的电脑上下载并安装一个制作启动U盘的工具,例如Rufus、WinToUSB等。使用该工具将操作系统安装文件写入U盘,并设置U盘为启动盘。将U盘插入需要重装系统的...

从win8装回win7系统(win8.1怎么装回win7)

重装电脑,而且您的【电脑系统没有完全崩溃】,那么可以用【【【硬盘安装系统的方法】】】来装系统,无需借助光盘或者u盘,简单快速。电脑硬盘安装系统的方法如下:1.到WIN7旗舰版基地去http://ww...

查看电脑硬件信息的4个技巧

1、点击下面任务栏中的windows图标或按键盘windows键打开开始菜单。2、在开始菜单中找到设置或settings,通常是右上角的齿轮按钮。3、然后在设置界面中找到system选项,点击进入。4...

老式电脑的显卡在哪里(老式电脑主机显卡在哪)

十年前的老电脑没必要了,换新吧,估计接口什么也都有限制了我看了下你这个是品牌电脑,代工板的应该是没有显卡插槽的,有的话也是AGP的,可以去淘片AGPATI9000系列的卡或者6200660...

word产品密钥2016(word产品密匙2016)

word2016激活密钥有两种类型:永久激活码和KMS期限激活密钥。其中,永久激活密钥可以使用批量授权版永久激活密钥进行激活,如所示;而KMS期限激活密钥需要使用KMS客户端密钥进行激活,如所示。另外...

如何选择电脑配置(如何选择电脑配置的高低)

选择电脑配置时,首先要考虑自己的需求和预算。确定用途(如游戏、办公、设计等),然后选择适合的处理器、内存、显卡、存储和显示器等。处理器要根据性能和功耗进行选择,内存要足够大以支持多任务处理,显卡要根据...

win10下方任务栏无反应(win10下方任务栏消失)

按ctrl+alt+delete键win10系统电脑中,按键盘上的ctrl+alt+delete键2点击任务管理器点击出现窗口选项中的“任务管理器”3点击重新启动打开管理器后,右击Windows资源管...

取消回复欢迎 发表评论: