百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

步步为营KDD:决策树算法

off999 2024-11-26 07:24 21 浏览 0 评论

概述

算法原理

1.首先,找到能够最好地将数据集分裂的特性(feature,或叫属性),

2.然后,对分裂后的子集执行同样的操作,

3.直到没有属性能够继续分裂或子集中的实例都属于同一个类为止。

采用(所有列别所有可能值包含的信息的期望值)来度量数据集的信息量,信息增益等于分裂前的熵减去分裂后的熵。

数据类型

数值型和标称型,树构造算法只适用于标称型数据,因此数据值数据必须离散化。

优点

计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

缺点

可能会产生过度匹配问题。

香农熵(Shannon entropy)

该算法最关键的一环就是如何找到最好的分裂特性。利用信息论(information theory)可获得分裂前和分裂后的信息。分裂前和分裂后信息发生的变化被称作信息增益(information gain)。通过对每个特性进行分裂测试,我们可以知道提供最大信息增益的特性。能够提供最大信息增益的分裂就是我们想要的分裂。

若要计算信息增益,我们需要知道如何量化度量分裂前和分裂后的信息。熵(entropy,拼音:shang)是由鲁道夫·克劳修斯(Rudolf Clausius)提出的度量体系混乱程度的量。香浓(Shannon)将熵的概念引入到信息论中来。

在信息论中,熵被用来衡量一个随机变量出现的期望值。假设一个随机变量X的值域是{x1, x2......, xn},则该随机变量的熵值H定义为:

其中,E表示期望函数,I(X)表示X的信息量,也是随机变量。I(xi)是值xi的信息定义。I(xi)的公式如下:

如果用p表示X的概率质量函数(probability mass function),则熵的公式可以表示为:

b是对数的底,可以是2、e、10。当b=2时,熵的单位是bit;当b=e时,熵的单位是nat;当b=10时,熵的单位是dit。

由以上公式可知,当随机变量只含有一个值时,那么出现该值得概率就是100%,也就是p = 1,log p = 0。熵值就是0。当随机变量含有多个值时,熵值就会增大。

代码实现

以下代码采用python实现使用信息增益获取最优分裂特性的决策树算法:


#!/usr/bin/env python
# _*_ coding: utf-8 _*_

from math import log
import operator

'''
计算数据集的香浓熵

基本思想:
首先计算数据集中各个类的概率,
然后对各个类的概率计算以2为底的对数得到该类的信息量,
最后让各个类的概率乘以对应的对数并相减得到数据集的熵。
'''
def calcShannonEnt(dataSet):
    entries_count = len(dataSet)
    labelCounts={}
    for row in dataSet:
        label = row[-1]
        if(label not in labelCounts.keys()):
            labelCounts[label] = 0
        labelCounts[label] += 1
    entropy=0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/entries_count
        entropy -= prob * log(prob, 2)
    return entropy

'''
分裂数据集

基本思想:
迭代数据集的每个实例,
当实例的指定属性的值等于指定值时,获取该实例的其他属性的值构成新实例,
将新实例添加到新的数据集中。
'''
def splitDataSet(dataSet, axis, value):
    splited_dataSets = []
    for row in dataSet:
        if row[axis] == value:
            reducedRow = row[:axis]
            reducedRow.extend(row[axis+1:])
            splited_dataSets.append(reducedRow)
    return splited_dataSets

'''
选择指定数据集用于分裂的最好的特性(属性)

基本思想:
对数据集中的每个特性进行分裂,并计算分裂后的信息增益,
选择产生最大信息增益的特性作为最优特性。
'''
def chooseBestFeatureToSplit(dataSet):
    features_count = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(features_count):
        featureVals = [row[i] for row in dataSet]
        distinctVals = set(featureVals)
        newEntropy = 0.0
        for val in distinctVals:
            subDataSet = splitDataSet(dataSet, i, val)
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

'''
当所有属性都参与分裂,而子集的实例仍属于多个类时,则采用占比最大的类。
'''
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

'''
创建树结构
'''
def createTree(dataSet, labels):
    featureLabels = labels[:]
    classList = [row[-1] for row in dataSet]
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeatureIndex = chooseBestFeatureToSplit(dataSet)
    bestFeatureLabel = featureLabels[bestFeatureIndex]
    myTree = {bestFeatureLabel:{}}
    del(featureLabels[bestFeatureIndex])
    featureVals = [row[bestFeatureIndex] for row in dataSet]
    distinctVals = set(featureVals)
    for value in distinctVals:
        subFeatureLabels = featureLabels[:]
        myTree[bestFeatureLabel][value] = createTree(splitDataSet(dataSet, bestFeatureIndex, value), subFeatureLabels)
    return myTree

'''
根据树结构对测试向量进行分类
'''
def classify(inputTree, featLabels, testVec):
    firstStr = inputTree.keys()[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    classLabel = "unknown"
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

'''
创建测试数据集
'''
def createDataSet():
    dataSet = [
        [1,1,'yes'],
        [1,1,'yes'],
        [1,0,'no'],
        [0,1,'no'],
        [0,1,'no']
        ]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

相关推荐

PYTHON-简易计算器的元素介绍

[烟花]了解模板代码的组成importPySimpleGUIassg#1)导入库layout=[[],[],[]]#2)定义布局,确定行数window=sg.Window(&#...

如何使用Python编写一个简单的计算器程序

Python是一种简单易学的编程语言,非常适合初学者入门。本文将教您如何使用Python编写一个简单易用的计算器程序,帮助您快速进行基本的数学运算。无需任何高深的数学知识,只需跟随本文的步骤,即可轻松...

用Python打造一个简洁美观的桌面计算器

最近在学习PythonGUI编程,顺手用Tkinter实现了一个简易桌面计算器,功能虽然不复杂,但非常适合新手练手。如果你正在学习Python,不妨一起来看看这个项目吧!项目背景Tkint...

用Python制作一个带图形界面的计算器

大家好,今天我要带大家使用Python制作一个具有图形界面的计算器应用程序。这个项目不仅可以帮助你巩固Python编程基础,还可以让你初步体验图形化编程的乐趣。我们将使用Python的tkinter库...

用python怎么做最简单的桌面计算器

有网友问,用python怎么做一个最简单的桌面计算器。如果只强调简单,在本机运行,不考虑安全性和容错等的话,你能想到的最简单的方案是什么呢?我觉得用tkinter加eval就够简单的。现在开整。首先创...

说好的《Think Python 2e》更新呢!

编程派微信号:codingpy本周三脱更了,不过发现好多朋友在那天去访问《ThinkPython2e》的在线版,感觉有点对不住呢(实在是没抽出时间来更新)。不过还好本周六的更新可以实现,要不就放一...

构建AI系统(三):使用Python设置您的第一个MCP服务器

是时候动手实践了!在这一部分中,我们将设置开发环境并创建我们的第一个MCP服务器。如果您从未编写过代码,也不用担心-我们将一步一步来。我们要构建什么还记得第1部分中Maria的咖啡馆吗?我们正在创...

函数还是类?90%程序员都踩过的Python认知误区

那个深夜,你在调试代码,一行行检查变量类型。突然,一个TypeError错误蹦出来,你盯着那句"strobjectisnotcallable",咖啡杯在桌上留下了一圈深色...

《Think Python 2e》中译版更新啦!

【回复“python”,送你十本电子书】又到了周三,一周快过去一半了。小编按计划更新《ThinkPython2e》最新版中译。今天更新的是第五章:条件和递归。具体内容请点击阅读原文查看。其他章节的...

Python mysql批量更新数据(兼容动态数据库字段、表名)

一、应用场景上篇文章我们学会了在pymysql事务中批量插入数据的复用代码,既然有了批量插入,那批量更新和批量删除的操作也少不了。二、解决思路为了解决批量删除和批量更新的问题,提出如下思路:所有更新语...

Python Pandas 库:解锁 combine、update 和compare函数的强大功能

在Python的数据处理领域,Pandas库提供了丰富且实用的函数,帮助我们高效地处理和分析数据。今天,咱们就来深入探索Pandas库中四个功能独特的函数:combine、combine_fi...

记录Python3.7.4更新到Python.3.7.8

Python官网Python安装包下载下载文件名称运行后选择升级选项等待安装安装完毕打开IDLE使用Python...

Python千叶网原图爬虫:界面化升级实践

该工具以Python爬虫技术为核心,实现千叶网原图的精准抓取,突破缩略图限制,直达高清资源。新增图形化界面(GUI)后,操作门槛大幅降低:-界面集成URL输入、存储路径选择、线程设置等核心功能,...

__future__模块:Python语言版本演进的桥梁

摘要Python作为一门持续演进的编程语言,在版本迭代过程中不可避免地引入了破坏性变更。__future__模块作为Python兼容性管理的核心机制,为开发者提供了在旧版本中体验新特性的能力。本文深入...

Python 集合隐藏技能:add 与 update 的致命区别,90% 开发者都踩过坑

add函数的使用场景及错误注意添加单一元素:正确示例:pythons={1,2}s.add(3)print(s)#{1,2,3}错误场景:试图添加可变对象(如列表)会报错(Pytho...

取消回复欢迎 发表评论: