百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

机器学习 | 算法笔记(四)- 决策树算法以及代码实现

off999 2024-11-26 07:23 44 浏览 0 评论

概述

上一篇讲述了《机器学习 | 算法笔记(三)- 支持向量机算法以及代码实现》,本篇讲述机器学习算法决策树,内容包括模型介绍及代码实现。

决策树

决策树(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。

缺点:可能会产生过度匹配的问题。

使用数据类型:数值型和标称型。

划分数据集的大原则是:将无序的数据变得更加有序。

我们可以使用多种方法划分数据集,但是每种方法都有各自的优缺点。于是我们这么想,如果我们能测量数据的复杂度,对比按不同特征分类后的数据复杂度,若按某一特征分类后复杂度减少的更多,那么这个特征即为最佳分类特征。

下面,我们就对以下表格中的西瓜样本构建决策树模型。

Claude Shannon 定义了熵(entropy)和信息增益(information gain)。

用熵来表示信息的复杂度,熵越大,则信息越复杂。

  • 信息熵(information entropy)
  • 样本集合D中第k类样本所占的比例(k=1,2,...,|Y|),|Y|为样本分类的个数,则D的信息熵为:

    Ent(D)的值越小,则D的纯度越高。直观理解一下:假设样本集合有2个分类,每类样本的比例为1/2,Ent(D)=1;只有一个分类,Ent(D)= 0,显然后者比前者的纯度高。

    在西瓜样本集中,共有17个样本,其中正样本8个,负样本9个,样本集的信息熵为:

  • 信息增益(information gain)
  • 使用属性a对样本集D进行划分所获得的“信息增益”的计算方法是,用样本集的总信息熵减去属性a的每个分支的信息熵与权重(该分支的样本数除以总样本数)的乘积,通常,信息增益越大,意味着用属性a进行划分所获得的“纯度提升”越大。因此,优先选择信息增益最大的属性来划分。

    同理也可以计算出其他几个属性的信息增益,选择信息增益最大的属性作为根节点来进行划分,然后再对每个分支做进一步划分。

    用python构造决策树基本流程


    ID3算法与决策树的流程

    (1)数据准备:需要对数值型数据进行离散化

    (2)ID3算法构建决策树:

    • 如果数据集类别完全相同,则停止划分
    • 否则,继续划分决策树:
      计算信息熵和信息增益来选择最好的数据集划分方法;划分数据集创建分支节点:对每个分支进行判定是否类别相同,如果相同停止划分,不同按照上述方法进行划分。

    通常一棵决策树包含一个根节点、若干个分支节点和若干个叶子节点,叶子节点对应决策结果(如好瓜或坏瓜),根节点和分支节点对应一个属性测试(如色泽=?),每个结点包含的样本集合根据属性测试的结果划分到子节点中。

    我们对整个训练集选择的最优划分属性就是根节点,第一次划分后,数据被向下传递到树分支的下一个节点,再这个节点我们可以再次划分数据,构建决策树是一个递归的过程,而递归结束的条件是:所有属性都被遍历完,或者每个分支下的所有样本都属于同一类。

    还有一种情况就是当划分到一个节点,该节点对应的属性取值都相同,而样本的类别却不同,这时就把当前节点标记为叶节点,并将其类别设为所含样本较多的类别。例如:当划分到某一分支时,节点中有3个样本,其最优划分属性为色泽,而色泽的取值只有一个“浅白”,3个样本中有2个好瓜,这时我们就把这个节点标记为叶节点“好瓜”。

    代码实现

    数据集:https://download.csdn.net/download/li1873997/12671852

    trees.py

    
    
    from math import log
    
    import operator  # 此行加在文件顶部
    
    
    # 通过排序返回出现次数最多的类别
    def majorityCnt(classList):
        classCount = {}
        for vote in classList:
            if vote not in classCount.keys(): classCount[vote] = 0
            classCount[vote] += 1
        sortedClassCount = sorted(classCount.iteritems(),
                                  key=operator.itemgetter(1), reverse=True)
        return sortedClassCount[0][0]
    
    
    # 递归构建决策树
    def createTree(dataSet, labels):
        classList = [example[-1] for example in dataSet]  # 类别向量
        if classList.count(classList[0]) == len(classList):  # 如果只有一个类别,返回
            return classList[0]
        if len(dataSet[0]) == 1:  # 如果所有特征都被遍历完了,返回出现次数最多的类别
            return majorityCnt(classList)
        bestFeat = chooseBestFeatureToSplit(dataSet)  # 最优划分属性的索引
        bestFeatLabel = labels[bestFeat]  # 最优划分属性的标签
        myTree = {bestFeatLabel: {}}
        del (labels[bestFeat])  # 已经选择的特征不再参与分类
        featValues = [example[bestFeat] for example in dataSet]
        uniqueValue = set(featValues)  # 该属性所有可能取值,也就是节点的分支
        for value in uniqueValue:  # 对每个分支,递归构建树
            subLabels = labels[:]
            myTree[bestFeatLabel][value] = createTree(
                splitDataSet(dataSet, bestFeat, value), subLabels)
        return myTree
    # 计算信息熵
    def calcShannonEnt(dataSet):
        numEntries = len(dataSet)  # 样本数
        labelCounts = {}
        for featVec in dataSet:  # 遍历每个样本
            currentLabel = featVec[-1]  # 当前样本的类别
            if currentLabel not in labelCounts.keys():  # 生成类别字典
                labelCounts[currentLabel] = 0
            labelCounts[currentLabel] += 1
        shannonEnt = 0.0
        for key in labelCounts:  # 计算信息熵
            prob = float(labelCounts[key]) / numEntries
            shannonEnt = shannonEnt - prob * log(prob, 2)
        return shannonEnt
    
    
    # 划分数据集,axis:按第几个属性划分,value:要返回的子集对应的属性值
    def splitDataSet(dataSet, axis, value):
        retDataSet = []
        featVec = []
        for featVec in dataSet:
            if featVec[axis] == value:
                reducedFeatVec = featVec[:axis]
                reducedFeatVec.extend(featVec[axis + 1:])
                retDataSet.append(reducedFeatVec)
        return retDataSet
    
    
    # 选择最好的数据集划分方式
    def chooseBestFeatureToSplit(dataSet):
        numFeatures = len(dataSet[0]) - 1  # 属性的个数
        baseEntropy = calcShannonEnt(dataSet)
        bestInfoGain = 0.0
        bestFeature = -1
        for i in range(numFeatures):  # 对每个属性技术信息增益
            featList = [example[i] for example in dataSet]
            uniqueVals = set(featList)  # 该属性的取值集合
            newEntropy = 0.0
            for value in uniqueVals:  # 对每一种取值计算信息增益
                subDataSet = splitDataSet(dataSet, i, value)
                prob = len(subDataSet) / float(len(dataSet))
                newEntropy += prob * calcShannonEnt(subDataSet)
            infoGain = baseEntropy - newEntropy
            if (infoGain > bestInfoGain):  # 选择信息增益最大的属性
                bestInfoGain = infoGain
                bestFeature = i
        return bestFeature
    
    # 计算信息熵
    def calcShannonEnt(dataSet):
        numEntries = len(dataSet)  # 样本数
        labelCounts = {}
        for featVec in dataSet:  # 遍历每个样本
            currentLabel = featVec[-1]  # 当前样本的类别
            if currentLabel not in labelCounts.keys():  # 生成类别字典
                labelCounts[currentLabel] = 0
            labelCounts[currentLabel] += 1
        shannonEnt = 0.0
        for key in labelCounts:  # 计算信息熵
            prob = float(labelCounts[key]) / numEntries
            shannonEnt = shannonEnt - prob * log(prob, 2)
        return shannonEnt
    
    
    # 划分数据集,axis:按第几个属性划分,value:要返回的子集对应的属性值
    def splitDataSet(dataSet, axis, value):
        retDataSet = []
        featVec = []
        for featVec in dataSet:
            if featVec[axis] == value:
                reducedFeatVec = featVec[:axis]
                reducedFeatVec.extend(featVec[axis + 1:])
                retDataSet.append(reducedFeatVec)
        return retDataSet
    
    
    # 选择最好的数据集划分方式
    def chooseBestFeatureToSplit(dataSet):
        numFeatures = len(dataSet[0]) - 1  # 属性的个数
        baseEntropy = calcShannonEnt(dataSet)
        bestInfoGain = 0.0
        bestFeature = -1
        for i in range(numFeatures):  # 对每个属性技术信息增益
            featList = [example[i] for example in dataSet]
            uniqueVals = set(featList)  # 该属性的取值集合
            newEntropy = 0.0
            for value in uniqueVals:  # 对每一种取值计算信息增益
                subDataSet = splitDataSet(dataSet, i, value)
                prob = len(subDataSet) / float(len(dataSet))
                newEntropy += prob * calcShannonEnt(subDataSet)
            infoGain = baseEntropy - newEntropy
            if (infoGain > bestInfoGain):  # 选择信息增益最大的属性
                bestInfoGain = infoGain
                bestFeature = i
        return bestFeature

    下面使用西瓜样本集,测试一下算法,创建一个WaterMalonTree.py文件。因为生成的树是中文表示的,因此使用json.dumps()方法来打印结果。如果是不含中文,直接print即可。

    # -*- coding: cp936 -*-
    import trees
    import json
     
    fr = open(r'C:\Python27\py\DecisionTree\watermalon.txt')
     
    listWm = [inst.strip().split('\t') for inst in fr.readlines()]
    labels = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感']
    Trees = trees.createTree(listWm, labels)
     
    print json.dumps(Trees, encoding="cp936", ensure_ascii=False)

    运行该文件,打印出西瓜的决策树,它是一个字典:

    {"纹理": {"模糊": "否", "清晰": {"根蒂": {"稍蜷": {"色泽": {"乌黑": {"触感": {"软粘": "否", "硬滑": "是"}}, "青绿": "是"}}, "蜷缩": "是", "硬挺": "否"}}, "稍糊": {"触感": {"软粘": "是", "硬滑": "否"}}}}

    总结

    决策树是一种基于树结构来进行决策的分类算法,我们希望从给定的训练数据集学得一个模型(即决策树),用该模型对新样本分类。决策树可以非常直观展现分类的过程和结果,一旦模型构建成功,对新样本的分类效率也相当高。

    最经典的决策树算法有ID3、C4.5、CART,其中ID3算法是最早被提出的,它可以处理离散属性样本的分类,C4.5和CART算法则可以处理更加复杂的分类问题,本文重点介绍ID3算法。下一篇介绍通过《 数据可视化-Python实现Matplotlib绘制决策树》。

    相关推荐

    安全教育登录入口平台(安全教育登录入口平台官网)

    122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

    大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

    大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

    谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
    哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
    哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

    要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

    2026-02-04 09:03 off999

    电信宽带测速官网入口(电信宽带测速官网入口app)

    这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

    植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

    1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

    免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

    1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

    2025世界杯赛程表(2025世界杯在哪个国家)

    2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

    下载搜狐视频电视剧(搜狐电视剧下载安装)

    搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

    pubg免费下载入口(pubg下载入口官方正版)
    • pubg免费下载入口(pubg下载入口官方正版)
    • pubg免费下载入口(pubg下载入口官方正版)
    • pubg免费下载入口(pubg下载入口官方正版)
    • pubg免费下载入口(pubg下载入口官方正版)
    永久免费听歌网站(丫丫音乐网)

    可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

    音乐格式转换mp3软件(音乐格式转换器免费版)

    有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

    电子书txt下载(免费的最全的小说阅读器)

    1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

    最好免费观看高清电影(播放免费的最好看的电影)

    在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

    孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

    要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

    取消回复欢迎 发表评论: