百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

步步为营KDD:决策树算法

off999 2024-11-26 07:24 17 浏览 0 评论

概述

算法原理

1.首先,找到能够最好地将数据集分裂的特性(feature,或叫属性),

2.然后,对分裂后的子集执行同样的操作,

3.直到没有属性能够继续分裂或子集中的实例都属于同一个类为止。

采用(所有列别所有可能值包含的信息的期望值)来度量数据集的信息量,信息增益等于分裂前的熵减去分裂后的熵。

数据类型

数值型和标称型,树构造算法只适用于标称型数据,因此数据值数据必须离散化。

优点

计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

缺点

可能会产生过度匹配问题。

香农熵(Shannon entropy)

该算法最关键的一环就是如何找到最好的分裂特性。利用信息论(information theory)可获得分裂前和分裂后的信息。分裂前和分裂后信息发生的变化被称作信息增益(information gain)。通过对每个特性进行分裂测试,我们可以知道提供最大信息增益的特性。能够提供最大信息增益的分裂就是我们想要的分裂。

若要计算信息增益,我们需要知道如何量化度量分裂前和分裂后的信息。熵(entropy,拼音:shang)是由鲁道夫·克劳修斯(Rudolf Clausius)提出的度量体系混乱程度的量。香浓(Shannon)将熵的概念引入到信息论中来。

在信息论中,熵被用来衡量一个随机变量出现的期望值。假设一个随机变量X的值域是{x1, x2......, xn},则该随机变量的熵值H定义为:

其中,E表示期望函数,I(X)表示X的信息量,也是随机变量。I(xi)是值xi的信息定义。I(xi)的公式如下:

如果用p表示X的概率质量函数(probability mass function),则熵的公式可以表示为:

b是对数的底,可以是2、e、10。当b=2时,熵的单位是bit;当b=e时,熵的单位是nat;当b=10时,熵的单位是dit。

由以上公式可知,当随机变量只含有一个值时,那么出现该值得概率就是100%,也就是p = 1,log p = 0。熵值就是0。当随机变量含有多个值时,熵值就会增大。

代码实现

以下代码采用python实现使用信息增益获取最优分裂特性的决策树算法:


#!/usr/bin/env python
# _*_ coding: utf-8 _*_

from math import log
import operator

'''
计算数据集的香浓熵

基本思想:
首先计算数据集中各个类的概率,
然后对各个类的概率计算以2为底的对数得到该类的信息量,
最后让各个类的概率乘以对应的对数并相减得到数据集的熵。
'''
def calcShannonEnt(dataSet):
    entries_count = len(dataSet)
    labelCounts={}
    for row in dataSet:
        label = row[-1]
        if(label not in labelCounts.keys()):
            labelCounts[label] = 0
        labelCounts[label] += 1
    entropy=0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/entries_count
        entropy -= prob * log(prob, 2)
    return entropy

'''
分裂数据集

基本思想:
迭代数据集的每个实例,
当实例的指定属性的值等于指定值时,获取该实例的其他属性的值构成新实例,
将新实例添加到新的数据集中。
'''
def splitDataSet(dataSet, axis, value):
    splited_dataSets = []
    for row in dataSet:
        if row[axis] == value:
            reducedRow = row[:axis]
            reducedRow.extend(row[axis+1:])
            splited_dataSets.append(reducedRow)
    return splited_dataSets

'''
选择指定数据集用于分裂的最好的特性(属性)

基本思想:
对数据集中的每个特性进行分裂,并计算分裂后的信息增益,
选择产生最大信息增益的特性作为最优特性。
'''
def chooseBestFeatureToSplit(dataSet):
    features_count = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(features_count):
        featureVals = [row[i] for row in dataSet]
        distinctVals = set(featureVals)
        newEntropy = 0.0
        for val in distinctVals:
            subDataSet = splitDataSet(dataSet, i, val)
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

'''
当所有属性都参与分裂,而子集的实例仍属于多个类时,则采用占比最大的类。
'''
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

'''
创建树结构
'''
def createTree(dataSet, labels):
    featureLabels = labels[:]
    classList = [row[-1] for row in dataSet]
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeatureIndex = chooseBestFeatureToSplit(dataSet)
    bestFeatureLabel = featureLabels[bestFeatureIndex]
    myTree = {bestFeatureLabel:{}}
    del(featureLabels[bestFeatureIndex])
    featureVals = [row[bestFeatureIndex] for row in dataSet]
    distinctVals = set(featureVals)
    for value in distinctVals:
        subFeatureLabels = featureLabels[:]
        myTree[bestFeatureLabel][value] = createTree(splitDataSet(dataSet, bestFeatureIndex, value), subFeatureLabels)
    return myTree

'''
根据树结构对测试向量进行分类
'''
def classify(inputTree, featLabels, testVec):
    firstStr = inputTree.keys()[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    classLabel = "unknown"
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

'''
创建测试数据集
'''
def createDataSet():
    dataSet = [
        [1,1,'yes'],
        [1,1,'yes'],
        [1,0,'no'],
        [0,1,'no'],
        [0,1,'no']
        ]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

相关推荐

面试官:来,讲一下枚举类型在开发时中实际应用场景!

一.基本介绍枚举是JDK1.5新增的数据类型,使用枚举我们可以很好的描述一些特定的业务场景,比如一年中的春、夏、秋、冬,还有每周的周一到周天,还有各种颜色,以及可以用它来描述一些状态信息,比如错...

一日一技:11个基本Python技巧和窍门

1.两个数字的交换.x,y=10,20print(x,y)x,y=y,xprint(x,y)输出:102020102.Python字符串取反a="Ge...

Python Enum 技巧,让代码更简洁、更安全、更易维护

如果你是一名Python开发人员,你很可能使用过enum.Enum来创建可读性和可维护性代码。今天发现一个强大的技巧,可以让Enum的境界更进一层,这个技巧不仅能提高可读性,还能以最小的代价增...

Python元组编程指导教程(python元组的概念)

1.元组基础概念1.1什么是元组元组(Tuple)是Python中一种不可变的序列类型,用于存储多个有序的元素。元组与列表(list)类似,但元组一旦创建就不能修改(不可变),这使得元组在某些场景...

你可能不知道的实用 Python 功能(python有哪些用)

1.超越文件处理的内容管理器大多数开发人员都熟悉使用with语句进行文件操作:withopen('file.txt','r')asfile:co...

Python 2至3.13新特性总结(python 3.10新特性)

以下是Python2到Python3.13的主要新特性总结,按版本分类整理:Python2到Python3的重大变化Python3是一个不向后兼容的版本,主要改进包括:pri...

Python中for循环访问索引值的方法

技术背景在Python编程中,我们经常需要在循环中访问元素的索引值。例如,在处理列表、元组等可迭代对象时,除了要获取元素本身,还需要知道元素的位置。Python提供了多种方式来实现这一需求,下面将详细...

Python enumerate核心应用解析:索引遍历的高效实践方案

喜欢的条友记得关注、点赞、转发、收藏,你们的支持就是我最大的动力源泉。根据GitHub代码分析统计,使用enumerate替代range(len())写法可减少38%的索引错误概率。本文通过12个生产...

Python入门到脱坑经典案例—列表去重

列表去重是Python编程中常见的操作,下面我将介绍多种实现列表去重的方法,从基础到进阶,帮助初学者全面掌握这一技能。方法一:使用集合(set)去重(最简单)pythondefremove_dupl...

Python枚举类工程实践:常量管理的标准化解决方案

本文通过7个生产案例,系统解析枚举类在工程实践中的应用,覆盖状态管理、配置选项、错误代码等场景,适用于Web服务开发、自动化测试及系统集成领域。一、基础概念与语法演进1.1传统常量与枚举类对比#传...

让Python枚举更强大!教你玩转Enum扩展

为什么你需要关注Enum?在日常开发中,你是否经常遇到这样的代码?ifstatus==1:print("开始处理")elifstatus==2:pri...

Python枚举(Enum)技巧,你值得了解

枚举(Enum)提供了更清晰、结构化的方式来定义常量。通过为枚举添加行为、自动分配值和存储额外数据,可以提升代码的可读性、可维护性,并与数据库结合使用时,使用字符串代替数字能简化调试和查询。Pytho...

78行Python代码帮你复现微信撤回消息!

来源:悟空智能科技本文约700字,建议阅读5分钟。本文基于python的微信开源库itchat,教你如何收集私聊撤回的信息。[导读]Python曾经对我说:"时日不多,赶紧用Python"。于是看...

登录人人都是产品经理即可获得以下权益

文章介绍如何利用Cursor自动开发Playwright网页自动化脚本,实现从选题、写文、生图的全流程自动化,并将其打包成API供工作流调用,提高工作效率。虽然我前面文章介绍了很多AI工作流,但它们...

Python常用小知识-第二弹(python常用方法总结)

一、Python中使用JsonPath提取字典中的值JsonPath是解析Json字符串用的,如果有一个多层嵌套的复杂字典,想要根据key和下标来批量提取value,这是比较困难的,使用jsonpat...

取消回复欢迎 发表评论: