机器学习：决策树cart算法在分类与回归的应用（下）

机器学习：决策树cart算法的回归树、模型树以及回归树与模型树的结果对比

1、写在前面

继本人的博文：决策树cart算法在分类与回归的应用（上），本文重点是cart算法在对数据集回归（预测）的实现，将构建的回归树结果与模型树进行比较，cart算法在构建回归树时，依据最小剩余方差法来进行最优标准划分的，当然回归树也是一个二叉树。这里有个本人认为的一个重点就是：cart算法在构建分类树与回归树时，是不删除已经选择过的特征属性的，而ID3、以及C4.5算法一旦第一次选择了该属性，就将剩余的记录去掉这个属性，然后再继续构建子树。这也是本人阅读了多篇博客的理解，而对于cart算法的回归树，博主写的很详细，本文也是在阅读此博主后，将个人的理解记录下来。

2、cart回归树python实现：

构建过程，本人就简单叙述下：1、最小剩余方差的计算过程中，充分利用python的set集合特点，将去重后的属性下的属性值放入集合中，然后遍历每个属性特征值计算分类后的方差，这样在遍历了每个属性下的属性值以及所有属性后，将计算的方差最小值对应的属性以及属性值返回，这样就得到了当前的最优划分。2、根据最优化分，将数据集记录划分为左右子树，这里注意不需要将划分后的记录删除已经作为划分了的特征属性。3、判断是否继续划分，即节点是否有必要进行分裂，若训练集数量很多，本人认为采取卡方检验是个很好的方法，但是本文代码实现的数据集记录就十几个，故在此就将是否继续分裂的标准定为了没有特征属性进行划分了，或者所有标签属性值一样，又或者记录数小于一设定阈值。4、回到第一步，对划分的左右数据记录进行最优划分标准求解。

以下是cart回归树python代码的实现，回归树与模型树的构建方法都给出了相应的注释，数据集链接数据，密码：nrby：

from numpy import *

def loadDataSet(fileName):
    '''
    读取一个一tab键为分隔符的文件，然后将每行的内容保存成一组浮点数
    '''
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float,curLine))
        dataMat.append(fltLine)
    return dataMat

def binSplitDataSet(dataSet, feature, value):
    '''
    数据集切分函数
    '''
    mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:]
    mat1 = dataSet[nonzero(dataSet[:,feature] <= value)[0],:]
    return mat0,mat1
def regLeaf(dataSet):
    '''负责生成叶节点'''
    #当chooseBestSplit()函数确定不再对数据进行切分时，将调用本函数来得到叶节点的模型。
    #在回归树中，该模型其实就是目标变量的均值。
    return mean(dataSet[:,-1])

def regErr(dataSet):
    '''
    误差估计函数，该函数在给定的数据上计算目标变量的平方误差，这里直接调用均方差函数
    '''
    return var(dataSet[:,-1]) * shape(dataSet)[0]#返回总方差

def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    '''
    树构建函数
    leafType:建立叶节点的函数
    errType:误差计算函数
    ops:包含树构建所需其他参数的元组
    '''
    #选择最优的划分特征
    #如果满足停止条件，将返回None和某类模型的值
    #若构建的是回归树，该模型是一个常数；如果是模型树，其模型是一个线性方程
    feat, val = chooseBestSplit(dataSet, leafType, errType, ops)
    if feat == None: return val #
    retTree = {}
    retTree['spInd'] = feat
    retTree['spVal'] = val
    #将数据集分为两份，之后递归调用继续划分
    lSet, rSet = binSplitDataSet(dataSet, feat, val)
    retTree['left'] = createTree(lSet, leafType, errType, ops)
    retTree['right'] = createTree(rSet, leafType, errType, ops)
    return retTree

def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    '''
    用最佳方式切分数据集和生成相应的叶节点
    '''
    #ops为用户指定参数，用于控制函数的停止时机
    tolS = ops[0]; tolN = ops[1]
    #如果所有值相等则退出
    if len(set(dataSet[:,-1].T.tolist()[0])) == 1:
        return None, leafType(dataSet)
    m,n = shape(dataSet)
    S = errType(dataSet)
    bestS = inf; bestIndex = 0; bestValue = 0
    #在所有可能的特征及其可能取值上遍历，找到最佳的切分方式
    #最佳切分也就是使得切分后能达到最低误差的切分
    for featIndex in range(n-1):
        for splitVal in set(dataSet[:,featIndex].T.A.tolist()[0]):
            mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)
            if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue
            newS = errType(mat0) + errType(mat1)
            if newS < bestS:
                bestIndex = featIndex
                bestValue = splitVal
                bestS = newS
    #如果误差减小不大则退出
    if (S - bestS) < tolS:
        return None, leafType(dataSet)
    mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
    #如果切分出的数据集很小则退出
    if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):
        return None, leafType(dataSet)
    #提前终止条件都不满足，返回切分特征和特征值
    return bestIndex,bestValue

#剪枝
def isTree(obj):
    '''判断输入变量是否是一棵树'''
    return (type(obj).__name__=='dict')

def prune(tree, testData):
    '''回归树剪枝函数'''
    if shape(testData)[0] == 0: return getMean(tree) #无测试数据则返回树的平均值
    if (isTree(tree['right']) or isTree(tree['left'])):#
        lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])
    if isTree(tree['left']): tree['left'] = prune(tree['left'], lSet)
    if isTree(tree['right']): tree['right'] =  prune(tree['right'], rSet)
    #如果两个分支已经不再是子树，合并它们
    #具体做法是对合并前后的误差进行比较。如果合并后的误差比不合并的误差小就进行合并操作，反之则不合并直接返回
    if not isTree(tree['left']) and not isTree(tree['right']):
        lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])
        errorNoMerge = sum(power(lSet[:,-1] - tree['left'],2)) +\
            sum(power(rSet[:,-1] - tree['right'],2))
        treeMean = (tree['left']+tree['right'])/2.0
        errorMerge = sum(power(testData[:,-1] - treeMean,2))
        if errorMerge < errorNoMerge:
            print("merging")
            return treeMean
        else: return tree

def getMean(tree):
    '''从上往下遍历树直到叶节点为止，计算它们的平均值'''
    if isTree(tree['right']): tree['right'] = getMean(tree['right'])
    if isTree(tree['left']): tree['left'] = getMean(tree['left'])
    return (tree['left']+tree['right'])/2.0

#构建模型树
def linearSolve(dataSet):
    '''将数据集格式化成目标变量Y和自变量X，X、Y用于执行简单线性回归'''
    m,n = shape(dataSet)
    X = mat(ones((m,n))); Y = mat(ones((m,1)))
    X[:,1:n] = dataSet[:,0:n-1]; Y = dataSet[:,-1]#默认最后一列为Y
    xTx = X.T*X
    #若矩阵的逆不存在，抛异常
    if linalg.det(xTx) == 0.0:
        raise NameError('This matrix is singular, cannot do inverse,\n\
        try increasing the second value of ops')
    ws = xTx.I * (X.T * Y)#回归系数
    return ws,X,Y

def modelLeaf(dataSet):
    '''负责生成叶节点模型'''
    ws,X,Y = linearSolve(dataSet)
    return ws

def modelErr(dataSet):
    '''误差计算函数'''
    ws,X,Y = linearSolve(dataSet)
    yHat = X * ws
    return sum(power(Y - yHat,2))

#模型树与回归树比较
def regTreeEval(model, inDat):
    #为了和modeTreeEval()保持一致，保留两个输入参数
    return float(model)

def createForeCast(tree, testData, modelEval=regTreeEval):
    # 多次调用treeForeCast()函数，以向量形式返回预测值，在整个测试集进行预测非常有用
    m=len(testData)
    yHat = mat(zeros((m,1)))
    for i in range(m):
        yHat[i,0] = treeForeCast(tree, mat(testData[i]), modelEval)
    return yHat

def treeForeCast(tree, inData, modelEval=regTreeEval):
    '''
    # 在给定树结构的情况下，对于单个数据点，该函数会给出一个预测值。
    # modeEval是对叶节点进行预测的函数引用，指定树的类型，以便在叶节点上调用合适的模型。
    # 此函数自顶向下遍历整棵树，直到命中叶节点为止，一旦到达叶节点，它就会在输入数据上
    # 调用modelEval()函数，该函数的默认值为regTreeEval()
    '''
    if not isTree(tree): return modelEval(tree, inData)
    if inData[tree['spInd']] > tree['spVal']:
        if isTree(tree['left']): return treeForeCast(tree['left'], inData, modelEval)
        else: return modelEval(tree['left'], inData)
    else:
        if isTree(tree['right']): return treeForeCast(tree['right'], inData, modelEval)
        else: return modelEval(tree['right'], inData)


def modelTreeEval(model, inDat):
    #对输入数据进行格式化处理，在原数据矩阵上增加第0列，元素的值都是1
    n = shape(inDat)[1]
    X = mat(ones((1,n+1)))
    X[:,1:n+1]=inDat
    return float(X*model)

if __name__=="__main__":
   trainData=mat(loadDataSet('trainDataset.txt'))
   testData=mat(loadDataSet('testDataset.txt'))
   Mytree=createTree(trainData,ops=(1,20))
   print(Mytree)
   yHat=createForeCast(Mytree,testData[:,0])
   print(corrcoef(yHat,testData[:,-1],rowvar=0)[0,1])#预测的结果与真实结果的相似性
   #创建模型树
   modelTree=createTree(trainData,modelLeaf,modelErr,ops=(1,20))
   yHat = createForeCast(modelTree,testData[:,0],modelTreeEval)
   print(corrcoef(yHat, testData[:, -1], rowvar=0)[0, 1])  # 模型树预测的结果与真实结果的相似性

注意：在此处模型树构建过程与cart的回归树基本一致，区别在于在叶子节点处：回归树将叶子结点的记录求得方差值作为结果，而模型树求得是线性回归的系数作为叶子结点。

3、运行结果图

其中字典结构是最终生成的cart回归树；第二行是回归树预测的结果与真实结果的相似性，第三行是模型树与真实结果的相似性。

4、写在最后

有时间将介绍下使用Tkinter绘制GUI并结合Matplotlib实现交互式绘图，将数据信息以易于人们理解的方式呈现，便于观察对数据的具体分析。一起学习，一起进步。