百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python决策树-3

off999 2024-11-26 07:24 28 浏览 0 评论

前两篇决策树已经给同学总结并用python代码实现了三种算法:C4.5信息增益算法、ID3信息增益率算法、CART基尼系数算法,这三种算法都是可以创建出决策树模型。并且还解释了过拟合问题以及解决过拟合的方法:预剪枝和后剪枝。

决策树代码

在这三种算法中,大家觉得哪种算法更加好呢!这里先留给大家思考。python的sklearn模块中也存在可以调用的类。

from sklearn import tree
CIC=tree.DecisionTreeClassifier()#构建分类决策树参数
CIC.fit(X,Y)#训练模型
CIC.predict(X_test)#模型预测

主要设置的参数有:

criterion:表示节点字段的选择算法,参数有:gini;mes。

max_depth:决策树的最大深度,也就是预剪枝步骤。

min_samples_leaf:叶子结点的最小样本。

min_samples_split:表示根节点与中间节点的最小分割量。

以上的参数均具有防止过拟合的功能,上面参数如能合理的设置,那么过拟合问题会大大降低。至于如何设置参数要参考实际数据,通过大量的试错来验证哪类数据更好。以上的函数是解决分类性决策树问题,连续性可以使用DecisionTreeRegressor()参数设置大同小异。

随机森林

随机森林是决策树的扩展形式,从字面上来看,‘随机’就代表数据的选择是具有随机性的,‘森林’就代表具有很多的决策树,并且这里随机森林都是没有通过预剪枝和后剪枝的。决策树的生成过程采用Bootstrap抽样法。

随机森林的算法思想其实很简单,也就是少数决策服从多数决策。比如:当一个样本数据传入随机森林时,会有n个决策树进行预测,其中有p个决策树认为结果是:1,则有n-p个决策树认为是:0。如果n-p>p那么结果就为0,反之亦然。

Bootstrap采样法的思想就是重采样,假设你有1000条数据、10个自变量、1个因变量。

  1. 从数据中随机抽取100条数据加入你的第一个决策树数据集编号为‘1’,随后放回数据集。
  2. 重复步骤 "1." 10次那么就构建好你的第一个数据集‘1’,数据集‘1’中有1000条数据,10个自变量、1个因变量。
  3. 如果你要构建5个决策树加入随机森林,那么重复以上两个步骤则可以得到5个数据集,并且大小与原始数据集相同。

数据构建完成,接下来构建决策树,构建方法使用的是CART决策树算法。随机使用p个自变量(其中p小于10)。以此类推构建全部5个决策树,然后让5个决策树进行预测,票多者当选。

以上便是随机森林的算法运行步骤是不是很简单。

随机森林代码

为了照顾一些不学算法的同学也能用到这个模型,这里我直接使用python的sklearn模块提供的代码调用即可,就不给大家从头到尾写算法了。

from sklearn import ensemble #ensemble模块中包含了随机森林算法调用
SJ=ensemble.RandomForestClassifier()#分类决策树调用
SJ=ensemble.RandomForestRegressor()#回归决策树调用

同样也可以根据决策数参数设置随机森林参数,随机森林增加了几个主要参数:

n_estimators:决策树个数,必须设置

bootstrap:bool类型数据,默认是True.即使用bootstrap随机抽样。

random_state:随机抽样生成器的种子,默认使用系统的随机数生成器

总结

前面给大家预留的一个问题,就是python的sklearn库是使用什么算法节选决策树节点的呢!相信看到这里的同学已经知道那就是CART基尼系数算法,至于为什么选择它当然是因为它名字好听啦!开玩笑的,实际上是因为它既可以处理离散型数据也可以处理连续性数据。

最后留给大家两个问题,问题1在构建决策树时自变量p的大小应该是多少呢?问题2在进行bootstrap抽样时,每次随机抽取的个数应该是多少,抽取的多少会影响决策树的数据结构吗?这在sklearn的随机森林中都为并未提及。在线求解!!!

每日日语语法:

时间的单位:时【じ】分【ぷん】

比如:6じ0ぷん。6時0分。

相关推荐

网络对时服务器(对时服务器端口)

对等网是指在网络中所有计算机的地位都是平等的,既是服务器也是客户机,所有计算机中安装的都是相同的单机操作系统如Windows98/XP/Vista/7等,它可以设置共享资源,但受连接数限制,一般是只允...

如何强制删除u盘文件(强制删除u盘内容)

1、电脑上下载安装安全杀毒类软件。2、使用强力卸载。3、找到U盘上需要卸载的文件,右击强力卸载可以卸载顽固型文件。4、被暂用的文件也删除不了可以退出U盘重启电脑重新开机插入U盘进行删除。5、不能删除的...

directx官方下载win7(directx download)

点开始-----运行,输入dxdiag,回车后打开“DirectX诊断工具”窗口,进入“显示”选项卡,看一下是否启用了加速,没有的话,单击下面的“DirectX功能”项中的“启用”按钮,这样便打开了D...

u盘视频无法播放怎么办(u盘上视频没办法播放)

解决办法:1.检查U盘存储格式是否为FAT32,如果不是,请将其格式化为FAT32; 2.检查U盘中视频文件是否损坏,如果有损坏文件,请尝试重新复制一份; 3.检查U盘中存储...

笔记本电脑无法正常启动怎么修复
笔记本电脑无法正常启动怎么修复

1.可以解决。2.Windows未能启动可能是由于系统文件损坏、硬件故障或病毒感染等原因引起的。解决方法可以尝试使用Windows安全模式启动、修复启动、还原系统、重装系统等方法。3.如果以上方法都无法解决问题,可以考虑联系专业的电脑...

2025-11-16 04:03 off999

联想设置u盘为第一启动项(联想怎么设置u盘启动为第一启动项)

联想电脑设置u盘为第一启动项方法如下一、将电脑开机,开机瞬间按F2键进入bios设置界面二、在上面5个选项里找到boot选项,这里按键盘上左右键来移动三、这里利用键盘上下键选到USB选项,然后按F5/...

家用路由器哪个牌子最好信号最稳定
家用路由器哪个牌子最好信号最稳定

TP-LINK最好,信号最稳定。路由器是连接两个或多个网络的硬件设备,在网络间起网关的作用,是读取每一个数据包中的地址然后决定如何传送的专用智能性的网络设备。它能够理解不同的协议,例如某个局域网使用的以太网协议,因特网使用的TCP/IP协议...

2025-11-16 03:03 off999

安卓纯净版系统(安卓的纯净模式)

安卓系统有纯净模式的,安卓系统必须有纯净模式的,刷入纯净版系统可以去除一些预装的应用和系统自带软件,提高手机的运行速度和使用体验。但需要注意的是刷机有一定风险,请确保你已经备份好手机数据并了解安装风险...

deepin系统怎么安装软件(deepin操作系统怎么安装软件)

deepin是一个基于Linux的操作系统,它默认不支持APK应用。要在deepin上安装APK应用,需要先安装一个Android模拟器,例如Anbox,然后从GooglePlayStore或其他...

下载app安装包(下载app安装包损坏)
下载app安装包(下载app安装包损坏)

1,没有刷机过的,可以在手机里面,找到系统自带的文件管理-(如图),2,点开后,可以直接看到文件分类,找到,安装包,点开,(如下图)3,即可看到手机里面的未安装APP;操作方法01如果是直接在浏览器上下载的软件,那就直接点开浏览器,然后点击...

2025-11-16 01:51 off999

window7旗舰版密码忘记(win7密码忘记了怎么办旗舰版)

1、重启电脑按f8选择“带命令提示符的安全模式”,跳出“CommandPrompt”窗口。2、在窗口中输入“netuserasd/add”回车,再升级输入“netlocalgroupadmi...

windows7界面(windows7界面由哪几个部分组成)

您好!Windows7一般有两种界面。一种为Aero界面,一种为经典界面。Aero界面还包含三个小分类:性能最佳Aero,BasicAero,对比度Aero。性能最佳Aero是Windows7最...

wps截图快捷键(WPS截图快捷键是哪个)

在WPS中进行截屏,可以通过快捷键来实现。具体操作在按下“Alt+PrtSc”之后,就会将当前屏幕截图保存到剪贴板中。若需要将截图保存为图片文件,则在粘贴时选择“文件夹”而不是“粘贴”,再选定存储...

台式电脑最佳配置清单及价格
  • 台式电脑最佳配置清单及价格
  • 台式电脑最佳配置清单及价格
  • 台式电脑最佳配置清单及价格
  • 台式电脑最佳配置清单及价格
电脑主机自动关机是什么原因

  原因一、软件  1.病毒破坏,自从有了计算机以后不久,计算机病毒也应运而生。当网络成为当今社会的信息大动脉后,病毒的传播更加方便,所以也时不时的干扰和破坏我们的正常工作。比较典型的就是前一段时间对...

取消回复欢迎 发表评论: