基于Python的决策树分类器与剪枝
off999 2024-11-26 07:23 41 浏览 0 评论
决策树通常包括:
- 根节点-表示被进一步划分为同质组的样本或总体
- 拆分-将节点分为两个子节点的过程
- 决策节点-当一个子节点根据某个条件拆分为其他子节点时,称为决策节点
- 叶节点或终端节点-不进一步拆分的子节点
- 信息增益-要使用一个条件(比如说信息最丰富的特征)来分割节点,我们需要定义一个可以优化的目标函数。在决策树算法中,我们倾向于在每次分割时最大化信息增益。在测量信息增益时,通常使用三种度量。它们是基尼不纯度、熵和分类误差
数学理解
为了理解决策树是如何发展的,我们需要更深入地了解在每一步中如何使用度量使信息增益最大化。
让我们举一个例子,其中我们有包含学生信息的训练数据,如性别、年级、因变量或分类变量,这些变量可以识别学生是否是美食家。我们有以下概述的信息。
- 学生总数-20人
- 被归为美食家的学生总数-10
- 不属于美食家的学生总数-10
- P(美食家),即学生成为美食家的概率=(10/20)=0.5
- Q(非美食家),学生不是美食家的概率=(10/20)=0.5
让我们根据学生的性别将他们分成两个节点,并重新计算上述指标。
男学生(节点A)
- 学生总数-10人
- 被归为美食家的学生总数-8
- 不属于美食家的学生总数-2
- P(美食家),学生成为美食家的概率=(8/10)=0.8
- Q(非美食家),学生不是美食家的概率=(2/10)=0.2
女生(节点B)
- 学生总数-10人
- 被归为美食家的学生总数-4
- 不属于美食家的学生总数-6
- P(美食家),学生成为美食家的概率=(4/10)=0.4
- Q(非美食家),学生不成为美食家的概率=(6/10)=0.6
节点A的基尼指数 (GIn)=P2+Q2,其中P和Q是学生成为美食家和非美食家的概率。GIn(节点A)=0.82+0.22=0.68
节点A的基尼不纯度(GIp)=1-基尼指数=1–0.68=0.32
节点B或女生的基尼指数(GIn)=P2+Q2,其中P和Q是学生成为美食家和非美食家的概率。GIn(节点B)=0.42+0.62=0.52
节点B的基尼不纯度(GIp)=1-基尼指数=1–0.52=0.48
我们观察到的是,当我们将学生按性别(男性和女性)分别划分为A和B节点时,我们分别得到了两个节点的基尼不纯度。现在,为了确定性别是否是将学生分为美食家和非美食家的正确变量,我们需要一个加权基尼不纯度分数,该分数使用以下公式计算。
加权基尼不纯度=(A节点总样本数/数据集中总样本数)基尼不纯度(A节点)+(B节点总样本数/数据集中样本数)基尼不纯度(B节点)
用此公式计算上例的加权基尼不纯度分数,按性别划分学生时加权基尼不纯度分数=(10/20)0.32 + (10/20)0.48 = 0.4
一个分类问题涉及多个自变量。变量可以是名义变量,也可以是连续变量。决策树很适合处理不同数据类型的变量。
决策树算法在决定每个节点的拆分时考虑了所有可能的变量,可以获得最大加权不纯度增益的变量被用作特定节点的决策变量。
在上面的例子中,使用“性别”作为决策变量的加权不纯度增益是0.4,但是,假设使用“年级”作为决策变量,加权不纯度增益0.56,算法将使用“年级”作为创建第一个分割的决策变量。所有后续步骤都遵循类似的方法,直到每个节点都是同构的。
决策树算法简介
- 决策树容易过度拟合,因为算法继续将节点分割为子节点,直到每个节点变得均匀
- 与测试集相比,训练数据的精度要高得多,因此需要对决策树进行剪枝,以防止模型过度拟合。剪枝可以通过控制树的深度、每个节点的最大/最小样本数、要拆分的节点的最小不纯度增益和最大叶节点来实现
- Python允许用户使用基尼不纯度或熵作为信息增益准则来开发决策树
- 可以使用网格搜索或随机搜索CV对决策树进行微调。CV代表交叉验证
三种不同不纯度标准的比较
下面概述的代码片段提供了不同不纯度标准的直观比较,以及它们如何随不同的概率值而变化。注意下面的代码改编自Deeper Insights into Machine Learning by S.Raschka, D.Julian, and J.Hearty, 2016。
import matplotlib.pyplot as plt
import numpy as np
#-----计算基尼指数
def gini(p):
return (p)*(1 - (p)) + (1 - p)*(1 - (1-p))
#-----计算熵
def entropy(p):
return - p*np.log2(p) - (1 - p)*np.log2((1 - p))
#-----计算分类误差
def classification_error(p):
return 1 - np.max([p, 1 - p])
#-----创建一个从0到1的概率值Numpy数组,增量为0.01
x = np.arange(0.0, 1.0, 0.01)
#---不同p值的熵
ent = [entropy(p) if p != 0 else None for p in x]
#----获得缩放后的熵
sc_ent = [e*0.5 if e else None for e in ent]
#--分类错误
err = [classification_error(i) for i in x]
#--绘图
fig = plt.figure();
plt.figure(figsize=(10,8));
ax = plt.subplot(111);
for i, lab, ls, c, in zip([ent, sc_ent, gini(x), err], ['Entropy', 'Entropy (scaled)','Gini Impurity',
'Misclassification Error'],['-', '-', '--', '-.'],
['black', 'darkgray','blue', 'brown', 'cyan']):
line = ax.plot(x, i, label=lab,
linestyle=ls, lw=2, color=c)
ax.legend(loc='upper center', bbox_to_anchor=(0.5, 1.15), ncol=3, fancybox=True, shadow=False)
ax.axhline(y=0.5, linewidth=1, color='k', linestyle='--')
ax.axhline(y=1.0, linewidth=1, color='k', linestyle='--')
plt.ylim([0, 1.1])
plt.xlabel('p(i=1)')
plt.ylabel('Impurity Index')
plt.show()
练习
问题陈述旨在建立一个分类模型来预测红酒的质量。
这是一个典型的多类分类问题。注意,所有的机器学习模型都对异常值敏感,因此在构建树之前,应该处理由异常值组成的特征/独立变量。
不同特性/独立变量的一个重要方面是它们如何相互作用。皮尔逊相关可以用来确定数据集中两个特征之间的关联程度。然而,对于像决策树这样的基于决策的算法,我们不会丢弃高度相关的变量。
#导入所需的库-
%matplotlib inline
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
import numpy as np
import pandas as pd
import seaborn as sns
sns.set(color_codes=True)
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split #分为训练集和测试集
from sklearn.tree import DecisionTreeClassifier #构建决策树模型
from sklearn import metrics
from sklearn.metrics import accuracy_score,f1_score,recall_score,precision_score, confusion_matrix #模型验证
%matplotlib inline
from IPython.display import display #用于在一个输出中显示多个数据帧
from sklearn.feature_extraction.text import CountVectorizer #DT不接受字符串作为模型拟合步骤的输入
import missingno as msno_plot #缺失值绘图
wine_df = pd.read_csv('winequality-red.csv',sep=';')
数据的快速描述性统计
wine_df.describe().transpose().round(2)
检查缺失值
#非缺失值的条形图
plt.title('#Non-missing Values by Columns')
msno_plot.bar(wine_df);
异常值检查和处理
#检查异常值
plt.figure(figsize=(15,15))
pos = 1
for i in wine_df.columns:
plt.subplot(3, 4, pos)
sns.boxplot(wine_df[i])
pos += 1
col_names=['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
'pH', 'sulphates', 'alcohol']
display(col_names)
for i in col_names:
q1, q2, q3 = wine_df[i].quantile([0.25,0.5,0.75])
IQR = q3 - q1
lower_cap=q1-1.5*IQR
upper_cap=q3+1.5*IQR
wine_df[i]=wine_df[i].apply(lambda x: upper_cap if x>(upper_cap) else (lower_cap if x<(lower_cap) else x))
上面的异常值使用Q1–1.5*IQR和Q3+1.5*IQR值进行提取。Q1、Q3和IQR分别代表第一四分位数、第三四分位数和四分位数间的范围。
sns.pairplot(wine_df);
理解不同变量之间的关系。注意。在决策树中,我们不需要删除高度相关的变量,因为节点只使用一个独立变量被划分为子节点,因此,即使两个或多个变量高度相关,产生最高信息增益的变量也将用于分析。
plt.figure(figsize=(10,8))
sns.heatmap(wine_df.corr(),
annot=True,
linewidths=.5,
center=0,
cbar=False,
cmap="YlGnBu")
plt.show()
分类问题对类别不平衡很敏感。当一个类值所占比例较大时,就会出现类不平衡。类别平衡是通过将因变量“quality”属性的值组合而产生的。
plt.figure(figsize=(10,8))
sns.countplot(wine_df['quality']);
wine_df['quality'] = wine_df['quality'].replace(8,7)
wine_df['quality'] = wine_df['quality'].replace(3,5)
wine_df['quality'] = wine_df['quality'].replace(4,5)
wine_df['quality'].value_counts(normalize=True)
将数据分为训练集和测试集,以检查模型的准确性,并查找是否存在过拟合或欠拟合。
# 将数据分解为训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test =train_test_split(wine_df.drop('quality',axis=1), wine_df['quality'], test_size=.3, random_state=22)
X_train.shape,X_test.shape
利用基尼准则建立了决策树模型。请注意,为了简单起见,我们将树剪枝到最大深度3。这将有助于我们将树可视化,并将其与我们在初始部分中讨论的概念联系起来。
clf_pruned = DecisionTreeClassifier(criterion = "gini", random_state = 100,
max_depth=3, min_samples_leaf=5)
clf_pruned.fit(X_train, y_train)
请注意,可以调整以下参数以改进模型输出(Scikit Learn,2019)。
- criterion — 使用的度量,例如基尼不纯度
- class_weight — None,代表所有类权重为1
- max_depth — 3; 剪枝。当“None”表示节点将展开,直到所有叶子都是同构的
- max_features — None; 在决定节点的分割时,要考虑所有的特征或自变量
- max_leaf_nodes — None;
- min_impurity_decrease — 0.0; 只有当分割确保不纯度的减少大于或等于零时,节点才被分割
- min_impurity_split — None;
- min_samples_leaf — 1;一个叶子存在所需的最小样本数
- min_samples_split — 2; 如果min_samples_leaf =1,则表示右节点和左节点应该各有一个样本,即父节点或根节点应该至少有两个样本
- splitter — ‘best’; 用于在每个节点选择分割的策略。最好确保在决定分割时考虑到所有的特征
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
from IPython.display import Image
import pydotplus
import graphviz
xvar = wine_df.drop('quality', axis=1)
feature_cols = xvar.columns
dot_data = StringIO()
export_graphviz(clf_pruned, out_file=dot_data,
filled=True, rounded=True,
special_characters=True,feature_names = feature_cols,class_names=['0','1','2'])
from pydot import graph_from_dot_data
(graph, ) = graph_from_dot_data(dot_data.getvalue())
Image(graph.create_png())
preds_pruned = clf_pruned.predict(X_test)
preds_pruned_train = clf_pruned.predict(X_train)
print(accuracy_score(y_test,preds_pruned))
print(accuracy_score(y_train,preds_pruned_train))
模型对训练数据和测试数据的准确度得分分别为0.60和0.62。
特征重要性是指一类将分数分配给预测模型的输入特征的技术,该技术指示在进行预测时每个特征的相对重要性。
## 计算特征重要性
feat_importance = clf_pruned.tree_.compute_feature_importances(normalize=False)
feat_imp_dict = dict(zip(feature_cols, clf_pruned.feature_importances_))
feat_imp = pd.DataFrame.from_dict(feat_imp_dict, orient='index')
feat_imp.rename(columns = {0:'FeatureImportance'}, inplace = True)
feat_imp.sort_values(by=['FeatureImportance'], ascending=False).head()
DecisionTreeClassifier()提供诸如min_samples_leaf和max_depth等参数,以防止树过度拟合。
可以看成是如下场景,在这个场景中,我们明确定义树的深度和最大叶子数。然而,最大的挑战是如何确定一棵树应该包含的最佳深度和叶子。
在上面的例子中,我们使用max_depth=3,min_samples_leaf=5。这些数字只是用来观察树的行为的示例图。但是,如果在现实中,我们被要求研究这个模型并为模型参数找到一个最佳值,这是一个挑战,但并非不可能(决策树模型可以使用GridSearchCV算法进行微调)。
另一种方法是使用成本复杂性剪枝(CCP)。
成本复杂性剪枝为控制树的大小提供了另一种选择。在DecisionTreeClassifier中,这种剪枝技术是由代价复杂性参数ccp_alpha来参数化的。ccp_alpha值越大,剪枝的节点数就越多。
简单地说,成本复杂性是一个阈值。只有当模型的整体不纯度改善了一个大于该阈值的值时,该模型才会将一个节点进一步拆分为其子节点,否则将停止。
当CCP值较低时,即使不纯度减少不多,该模型也会将一个节点分割成子节点。随着树的深度增加,这一点很明显,也就是说,当我们沿着决策树往下走时,我们会发现分割对模型整体不纯度的变化没有太大贡献。然而,更高的分割保证了类的正确分类,即准确度更高。
当CCP值较低时,会创建更多的节点。节点越高,树的深度也越高。
下面的代码(Scikit Learn)说明了如何对alpha进行调整,以获得更高精度分数的模型。
path = model_gini.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas, impurities = path.ccp_alphas, path.impurities
fig, ax = plt.subplots(figsize=(16,8));
ax.plot(ccp_alphas[:-1], impurities[:-1], marker='o', drawstyle="steps-post");
ax.set_xlabel("effective alpha");
ax.set_ylabel("total impurity of leaves");
ax.set_title("Total Impurity vs effective alpha for training set");
让我们了解随着alpha的变化深度和节点数的变化。
clfs = clfs[:-1]
ccp_alphas = ccp_alphas[:-1]
node_counts = [clf.tree_.node_count for clf in clfs]
depth = [clf.tree_.max_depth for clf in clfs]
fig, ax = plt.subplots(2, 1,figsize=(16,8))
ax[0].plot(ccp_alphas, node_counts, marker='o', drawstyle="steps-post")
ax[0].set_xlabel("alpha")
ax[0].set_ylabel("number of nodes")
ax[0].set_title("Number of nodes vs alpha")
ax[1].plot(ccp_alphas, depth, marker='o', drawstyle="steps-post")
ax[1].set_xlabel("alpha")
ax[1].set_ylabel("depth of tree")
ax[1].set_title("Depth vs alpha")
fig.tight_layout()
了解α增加时精度的变化。
fig, ax = plt.subplots(figsize=(16,8)); #设置大小
train_scores = [clf.score(X_train, y_train) for clf in clfs]
test_scores = [clf.score(X_test, y_test) for clf in clfs]
ax.set_xlabel("alpha")
ax.set_ylabel("accuracy")
ax.set_title("Accuracy vs alpha for training and testing sets")
ax.plot(ccp_alphas, train_scores, marker='o', label="train",
drawstyle="steps-post")
ax.plot(ccp_alphas, test_scores, marker='o', label="test",
drawstyle="steps-post")
ax.legend()
plt.show()
i = np.arange(len(ccp_alphas))
ccp = pd.DataFrame({'Depth': pd.Series(depth,index=i),'Node' : pd.Series(node_counts, index=i),\
'ccp' : pd.Series(ccp_alphas, index = i),'train_scores' : pd.Series(train_scores, index = i),
'test_scores' : pd.Series(test_scores, index = i)})
ccp.tail()
ccp[ccp['test_scores']==ccp['test_scores'].max()]
上面的代码提供了在测试数据中产生最高精度的成本计算剪枝值。
参考文献
- Raschka, S., Julian, D. and Hearty, J. (2016). Python : deeper insights into machine learning : leverage benefits of machine learning techniques using Python : a course in three modules. Birmingham, Uk: Packt Publishing, pp.83, 88, 89.
- ?Scikit-learn: Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825–2830, 2011.
- Scikit Learn (2019). sklearn.tree.DecisionTreeClassifier — scikit-learn 0.22.1 documentation. [online] Scikit-learn.org. Available at: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html.
- Scikit Learn (n.d.). Post pruning decision trees with cost complexity pruning. [online] Available at: https://scikit-learn.org/stable/auto_examples/tree/plot_cost_complexity_pruning.html#sphx-glr-auto-examples-tree-plot-cost-complexity-pruning-py.
原文链接:https://towardsdatascience.com/decision-tree-classifier-and-cost-computation-pruning-using-python-b93a0985ea77
相关推荐
- win7系统破解激活工具(windows7破解激活)
-
方法如下:1、开机到欢迎界面时,按Ctrl+Alt+Delete,跳出帐号窗口,输入用户名:administrator,回车。2、如果这个帐号也有密码采用开机启动时按F8选“带命令行的安全模式”。...
- 怎么制作winpeu盘启动盘(制作winpe启动盘有什么作用)
-
我们应先理解U盘启动盘:简单理解就是用U盘启动盘代替电脑以前的光驱,所以它只有3个最基本的功能:1、帮助电脑正常启动。比如电脑无限在启动界面循环;2、格式化硬盘。格式化硬盘所有分区,再重新分区;3、重...
- 磁力搜索引擎入口(磁力搜索器引擎)
-
01.磁力熊磁力熊,是一个内容丰富、功能最为强大的一个磁力搜索网站,通过它不仅仅可以搜索到大量纯净的1080P高分电影,像一些比较小众的影视剧这里也都能找到。02.夕阳小站夕阳小站,虽然网站整体界面设...
- 手机变成安全模式怎么解除(手机变成安全模式是怎么回事)
-
解除比较安全模式的方法主要有三种:1、按电源键长按机器会弹出重启菜单,将手机重启即可解除比较安全模式。2、查询手机操作手册,进入设置里找到“比较安全模式”,可以改变比较安全模式的状态,即可解除比较安全...
-
- win7官方最小精简版(最小win7精简版系统239m)
-
推荐win7系统精简版一、雨林木风系统v1906雨林雨林木风GhostWin7SP1旗舰版一如既往注重稳定与安全,本次6月版本更新优化注册表增强系统运行效率,不对系统关键文件进行修改保证稳定性,关闭系统可能会感染病毒的端口,更新最新...
-
2026-01-11 14:51 off999
- 华硕牌子电脑怎么样(华硕牌子电脑怎么样值得买吗)
-
1、华硕笔记本电脑在市场上有很高的认知度和认可度。除了在零售市场有出色口碑外,在特殊领域华硕笔记本一样有惊人的表现;2、华硕笔记本电脑的优点在于它的主板性能好还有就是它的散热效果也不错,性能比较稳定;...
- 两个文件夹内容自动同步(两个文件夹内容自动同步,删除不了)
-
D:盘中点右键,新建公文包B,将文件夹A拖到公文包B中。如果以后文件夹A中的文件修改了,打开公文包B,点菜单上的“公文包、全部更新”。则公文包B就会自动更新文件,与文件夹A中的保持一致。这种方法可以有...
- 无法删除的文件夹怎么删(无法删除文件夹或文件的原因有哪些)
-
删除不了的软件、文件或文件夹的解决方法:1、开机按F8不动,到高级选项出现在松开手,用上下键选安全模式,按照提示进入到安全模式中删除即可(安全模式与正常模式操作一样)。2、如果使用其他办法无法删...
- win7重装系统不用u盘(不用u盘新手重装系统win7)
-
可以通过以下步骤在不使用U盘的情况下重装Win7系统:首先需要备份您的电脑中的重要数据,以免在系统重装时丢失。进入系统的“控制面板”,找到“系统与安全”选项并单击进入。在“系统与安全”页面中,找到“备...
- 扣扣安全中心怎么修改密码(扣扣安全中心修改不了密码)
-
1、首先,打开QQ面板左下角的三个条形图标,然后在弹出选项的“安全”中单击“安全中心主页”。2、然后在打开的QQ安全中心页面中,单击头像下方的“修改密码”。3、然后将弹出一个提示来确认该QQ号码,并单...
- win10两台电脑怎么共享文件(win10两台电脑怎么共享文件夹)
-
在Windows10中,您可以使用以下步骤共享文件:1.在要共享的文件夹上单击右键,选择“属性”。2.选择“共享”选项卡,然后选择“高级共享”。3.在“高级共享”对话框中,选中“共享此文件...
- 电脑复制粘贴不了是怎么回事
-
电脑无法复制粘贴原因分析及解决方法:如果是中病毒的话,会有以下的这些情况:1、系统不能上网,例如宽带账号无法登录,qq登录不上,网页无法打开。2、复制粘贴功能失效。3、电脑任务栏上的信息不能显示。4、...
- win7一键烟雾头(win7烟雾头设置)
-
要调整Win7系统的烟雾头,首先需要打开“显示设置”窗口,在这个窗口中可以找到“分辨率”、“屏幕比例”等选项。接着,在“高级设置”中找到“显示适配器属性”选项,点击进入。在这个界面中,可以找到“3D设...
- win7系统一键装机下载(w7一键安装操作系统)
-
可以在温十系统电脑上下载温七装机系统,但需要按照正确的步骤进行安装。以下是一个可能的安装步骤:1.在温十系统电脑上下载温七装机系统的ISO文件,可以从互联网上下载,也可以从其他媒体(如DVD或USB驱...
- qq互联管理中心(qq互联管理中心是干什么的)
-
QQ互联是基于Discuz!云平台的一项服务,因此在开通QQ互联之前首先需要开通Discuz!云平台。在Discuz!X2中已经内置了云平台和相关服务,无需安装,在后台直接开启即可。可以呀,有...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
