百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

步步为营KDD:决策树算法

off999 2024-11-26 07:24 31 浏览 0 评论

概述

算法原理

1.首先,找到能够最好地将数据集分裂的特性(feature,或叫属性),

2.然后,对分裂后的子集执行同样的操作,

3.直到没有属性能够继续分裂或子集中的实例都属于同一个类为止。

采用(所有列别所有可能值包含的信息的期望值)来度量数据集的信息量,信息增益等于分裂前的熵减去分裂后的熵。

数据类型

数值型和标称型,树构造算法只适用于标称型数据,因此数据值数据必须离散化。

优点

计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

缺点

可能会产生过度匹配问题。

香农熵(Shannon entropy)

该算法最关键的一环就是如何找到最好的分裂特性。利用信息论(information theory)可获得分裂前和分裂后的信息。分裂前和分裂后信息发生的变化被称作信息增益(information gain)。通过对每个特性进行分裂测试,我们可以知道提供最大信息增益的特性。能够提供最大信息增益的分裂就是我们想要的分裂。

若要计算信息增益,我们需要知道如何量化度量分裂前和分裂后的信息。熵(entropy,拼音:shang)是由鲁道夫·克劳修斯(Rudolf Clausius)提出的度量体系混乱程度的量。香浓(Shannon)将熵的概念引入到信息论中来。

在信息论中,熵被用来衡量一个随机变量出现的期望值。假设一个随机变量X的值域是{x1, x2......, xn},则该随机变量的熵值H定义为:

其中,E表示期望函数,I(X)表示X的信息量,也是随机变量。I(xi)是值xi的信息定义。I(xi)的公式如下:

如果用p表示X的概率质量函数(probability mass function),则熵的公式可以表示为:

b是对数的底,可以是2、e、10。当b=2时,熵的单位是bit;当b=e时,熵的单位是nat;当b=10时,熵的单位是dit。

由以上公式可知,当随机变量只含有一个值时,那么出现该值得概率就是100%,也就是p = 1,log p = 0。熵值就是0。当随机变量含有多个值时,熵值就会增大。

代码实现

以下代码采用python实现使用信息增益获取最优分裂特性的决策树算法:


#!/usr/bin/env python
# _*_ coding: utf-8 _*_

from math import log
import operator

'''
计算数据集的香浓熵

基本思想:
首先计算数据集中各个类的概率,
然后对各个类的概率计算以2为底的对数得到该类的信息量,
最后让各个类的概率乘以对应的对数并相减得到数据集的熵。
'''
def calcShannonEnt(dataSet):
    entries_count = len(dataSet)
    labelCounts={}
    for row in dataSet:
        label = row[-1]
        if(label not in labelCounts.keys()):
            labelCounts[label] = 0
        labelCounts[label] += 1
    entropy=0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/entries_count
        entropy -= prob * log(prob, 2)
    return entropy

'''
分裂数据集

基本思想:
迭代数据集的每个实例,
当实例的指定属性的值等于指定值时,获取该实例的其他属性的值构成新实例,
将新实例添加到新的数据集中。
'''
def splitDataSet(dataSet, axis, value):
    splited_dataSets = []
    for row in dataSet:
        if row[axis] == value:
            reducedRow = row[:axis]
            reducedRow.extend(row[axis+1:])
            splited_dataSets.append(reducedRow)
    return splited_dataSets

'''
选择指定数据集用于分裂的最好的特性(属性)

基本思想:
对数据集中的每个特性进行分裂,并计算分裂后的信息增益,
选择产生最大信息增益的特性作为最优特性。
'''
def chooseBestFeatureToSplit(dataSet):
    features_count = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(features_count):
        featureVals = [row[i] for row in dataSet]
        distinctVals = set(featureVals)
        newEntropy = 0.0
        for val in distinctVals:
            subDataSet = splitDataSet(dataSet, i, val)
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

'''
当所有属性都参与分裂,而子集的实例仍属于多个类时,则采用占比最大的类。
'''
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

'''
创建树结构
'''
def createTree(dataSet, labels):
    featureLabels = labels[:]
    classList = [row[-1] for row in dataSet]
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeatureIndex = chooseBestFeatureToSplit(dataSet)
    bestFeatureLabel = featureLabels[bestFeatureIndex]
    myTree = {bestFeatureLabel:{}}
    del(featureLabels[bestFeatureIndex])
    featureVals = [row[bestFeatureIndex] for row in dataSet]
    distinctVals = set(featureVals)
    for value in distinctVals:
        subFeatureLabels = featureLabels[:]
        myTree[bestFeatureLabel][value] = createTree(splitDataSet(dataSet, bestFeatureIndex, value), subFeatureLabels)
    return myTree

'''
根据树结构对测试向量进行分类
'''
def classify(inputTree, featLabels, testVec):
    firstStr = inputTree.keys()[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    classLabel = "unknown"
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

'''
创建测试数据集
'''
def createDataSet():
    dataSet = [
        [1,1,'yes'],
        [1,1,'yes'],
        [1,0,'no'],
        [0,1,'no'],
        [0,1,'no']
        ]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

相关推荐

directx官方下载win7(directx download)

点开始-----运行,输入dxdiag,回车后打开“DirectX诊断工具”窗口,进入“显示”选项卡,看一下是否启用了加速,没有的话,单击下面的“DirectX功能”项中的“启用”按钮,这样便打开了D...

u盘视频无法播放怎么办(u盘上视频没办法播放)

解决办法:1.检查U盘存储格式是否为FAT32,如果不是,请将其格式化为FAT32; 2.检查U盘中视频文件是否损坏,如果有损坏文件,请尝试重新复制一份; 3.检查U盘中存储...

笔记本电脑无法正常启动怎么修复
笔记本电脑无法正常启动怎么修复

1.可以解决。2.Windows未能启动可能是由于系统文件损坏、硬件故障或病毒感染等原因引起的。解决方法可以尝试使用Windows安全模式启动、修复启动、还原系统、重装系统等方法。3.如果以上方法都无法解决问题,可以考虑联系专业的电脑...

2025-11-16 04:03 off999

联想设置u盘为第一启动项(联想怎么设置u盘启动为第一启动项)

联想电脑设置u盘为第一启动项方法如下一、将电脑开机,开机瞬间按F2键进入bios设置界面二、在上面5个选项里找到boot选项,这里按键盘上左右键来移动三、这里利用键盘上下键选到USB选项,然后按F5/...

家用路由器哪个牌子最好信号最稳定
家用路由器哪个牌子最好信号最稳定

TP-LINK最好,信号最稳定。路由器是连接两个或多个网络的硬件设备,在网络间起网关的作用,是读取每一个数据包中的地址然后决定如何传送的专用智能性的网络设备。它能够理解不同的协议,例如某个局域网使用的以太网协议,因特网使用的TCP/IP协议...

2025-11-16 03:03 off999

安卓纯净版系统(安卓的纯净模式)

安卓系统有纯净模式的,安卓系统必须有纯净模式的,刷入纯净版系统可以去除一些预装的应用和系统自带软件,提高手机的运行速度和使用体验。但需要注意的是刷机有一定风险,请确保你已经备份好手机数据并了解安装风险...

deepin系统怎么安装软件(deepin操作系统怎么安装软件)

deepin是一个基于Linux的操作系统,它默认不支持APK应用。要在deepin上安装APK应用,需要先安装一个Android模拟器,例如Anbox,然后从GooglePlayStore或其他...

下载app安装包(下载app安装包损坏)
下载app安装包(下载app安装包损坏)

1,没有刷机过的,可以在手机里面,找到系统自带的文件管理-(如图),2,点开后,可以直接看到文件分类,找到,安装包,点开,(如下图)3,即可看到手机里面的未安装APP;操作方法01如果是直接在浏览器上下载的软件,那就直接点开浏览器,然后点击...

2025-11-16 01:51 off999

window7旗舰版密码忘记(win7密码忘记了怎么办旗舰版)

1、重启电脑按f8选择“带命令提示符的安全模式”,跳出“CommandPrompt”窗口。2、在窗口中输入“netuserasd/add”回车,再升级输入“netlocalgroupadmi...

windows7界面(windows7界面由哪几个部分组成)

您好!Windows7一般有两种界面。一种为Aero界面,一种为经典界面。Aero界面还包含三个小分类:性能最佳Aero,BasicAero,对比度Aero。性能最佳Aero是Windows7最...

wps截图快捷键(WPS截图快捷键是哪个)

在WPS中进行截屏,可以通过快捷键来实现。具体操作在按下“Alt+PrtSc”之后,就会将当前屏幕截图保存到剪贴板中。若需要将截图保存为图片文件,则在粘贴时选择“文件夹”而不是“粘贴”,再选定存储...

台式电脑最佳配置清单及价格
  • 台式电脑最佳配置清单及价格
  • 台式电脑最佳配置清单及价格
  • 台式电脑最佳配置清单及价格
  • 台式电脑最佳配置清单及价格
电脑主机自动关机是什么原因

  原因一、软件  1.病毒破坏,自从有了计算机以后不久,计算机病毒也应运而生。当网络成为当今社会的信息大动脉后,病毒的传播更加方便,所以也时不时的干扰和破坏我们的正常工作。比较典型的就是前一段时间对...

显示桌面快捷键(怎么设置桌面快捷图标)

电脑上显示桌面的快捷键如下:1,常用。同时按Win徽标键+D键(win键位于Ctrl与Alt之间像个飘起来的田字):按一次显示桌面,再同时按一次返回到窗口。2,同时按Win徽标键+M:原本含义是“...

如何使用u盘拷贝文件(如何使用u盘拷贝文件到电脑)

1、插入u盘,在桌面上或“我的电脑”中能查看u盘信息。2、在电脑中找到需要拷贝的文件,右键点击复制。3、进入u盘界面,在空白处点击右键,选择“粘贴”即可拷贝到u盘。或者,同时打开需要复制的文件窗口和u...

取消回复欢迎 发表评论: