python决策树-2

off999 2024-11-26 07:24 45 浏览 0 评论

前篇讲解到了决策树的基本概念和构建，主要基于信息熵的计算和信息增益的计算。代码模块昨天还未更新，今天给大家讲解一下怎样用代码计算这两个变量。同时补充一下几个重要的概念。

信息熵代码

首先第一步统计所有指标。

def excel_L(file):#导入excel统计各类指标数值
    data=pd.read_excel(file)
    shap=data.shape
    L=shap[0]
    series_m=[]
    for o in range(shap[1]):
        count=data.iloc[:,o].value_counts()#统计数值
        series_m.append(count)
    return data,L,series_m

第二部根据‘’是否购买‘’这个指标条件统计每个值。代码如下：

def count_H(date,series):
    log_count=[]
    l=0
    for s in series_all[:-1]:
        log=[]
        for i in range(len(s)):
            date_w=data.loc[data.iloc[:,l]==(s.index)[i],:]
            cout=date_w.iloc[:,-1].value_counts()
            log.append([len(date_w),cout])
        log_count.append(log)
        l+=1
    return log_count

以上的数据就是在‘’是否购买‘’这个条件下，各指标的种类以及个数。比如第一条就是‘类别’这指标有5类，每类数量分别为4,4,3,3,3。

接下来计算信息熵。

def H(series_H,L):#计算信息熵
    log_H=[]
    for w in range(len(series_H)):
        log_H.append(int(series_H[w])/L)
    num=0
    for i in log_H: 
        num+=-i*math.log2(i)#循环计算信息熵
    return num

传入序列和数量，计算一个指标的信息熵。

计算条件信息熵。

def Gain(series_log,L):#导入计算好的各类经验比例和总数据
    gainA=np.zeros([len(series_log)])
    log_A=0
    for l in series_log:#循环第一个信息增益比例数据
        gain_A=0
        for q in l:#循环计算第一个事件条件信息熵
            if len(q[1])==1:#判断是否存在购买与不够买两种情况
                gain_A+=-(q[0]/L)*((q[1][0]/q[0])*math.log2(q[1][0]/q[0]))#计算信息条件信息熵
            else:
                gain_A+=-(q[0]/L)*((int(q[1][0])/q[0])*math.log2(int(q[1][0])/q[0])+(int(q[1][1])/q[0])*math.log2(int(q[1][1])/q[0]))#计算信息条件信息熵
        gainA[log_A]=gain_A
        log_A+=1
    return gainA

信息熵-条件信息熵=信息增益。由下可见所学专业应该为根节点然后依次类推。

那么纠正一下昨天的决策树图像。