当前位置：网站首页 > 技术资源 > 正文

python决策树用于分类和回归问题实际应用案例

off999 2024-11-26 07:24 42 浏览 0 评论

决策树（Decision Trees）

通过树状结构进行决策，在每个节点上根据特征进行分支。用于分类和回归问题。

实际应用案例：预测一个顾客是否会流失。

决策树是一种基于树状结构的机器学习算法，用于解决分类和回归问题。它通过构建一棵树来表示数据的决策过程，每个内部节点代表一个特征，每个叶节点代表一个类别或一个数值。

决策树的构建过程包括以下步骤：

特征选择：根据某个指标（如信息增益、基尼系数等），选择最佳的特征作为当前节点的划分依据。
节点划分：根据选择的特征，将数据集划分为多个子集，每个子集对应一个子节点。
递归构建：对每个子节点，重复上述步骤，直到满足停止条件，如节点中的所有样本属于同一类别，或者达到树的最大深度。
剪枝处理：为了避免过拟合，可以对构建好的决策树进行剪枝处理，即移除部分节点或合并叶节点。

下面是使用Python 3构建决策树的简单示例：

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics

# 加载数据集
iris = datasets.load_iris()
X = iris.data  # 特征向量
y = iris.target  # 目标变量

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

# 创建决策树分类器
clf = DecisionTreeClassifier()

# 在训练集上训练模型
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 评估模型性能
print("准确率:", metrics.accuracy_score(y_test, y_pred))

在上述示例中，我们使用鸢尾花数据集（iris）构建了一个决策树分类器。我们将数据集拆分为训练集和测试集，使用训练集进行模型训练，然后在测试集上进行预测，并使用准确率来评估模型的性能。

这只是决策树算法的基本示例，实际应用中可能会涉及更复杂的数据集和调整模型参数来优化性能。

算法实现：

导入需要用到的python库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据集

数据集下载：https://github.com/Avik-Jain/100-Days-Of-ML-Code/blob/master/datasets/Social_Network_Ads.csv

dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

将数据集拆分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

特征缩放

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

对测试集进行决策树分类拟合

from sklearn.tree import DecisionTreeClassifier
classifier = DecisionTreeClassifier(criterion = 'entropy', random_state = 0)
classifier.fit(X_train, y_train)

预测测试集的结果

y_pred = classifier.predict(X_test)

制作混淆矩阵

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

将训练集结果进行可视化

from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Decision Tree Classification (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

python决策树