版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_34533544/article/details/77836365
机器学习:决策树cart算法的回归树、模型树以及回归树与模型树的结果对比
1、写在前面
继本人的博文:决策树cart算法在分类与回归的应用(上),本文重点是cart算法在对数据集回归(预测)的实现,将构建的回归树结果与模型树进行比较,cart算法在构建回归树时,依据最小剩余方差法来进行最优标准划分的,当然回归树也是一个二叉树。这里有个本人认为的一个重点就是:cart算法在构建分类树与回归树时,是不删除已经选择过的特征属性的,而ID3、以及C4.5算法一旦第一次选择了该属性,就将剩余的记录去掉这个属性,然后再继续构建子树。这也是本人阅读了多篇博客的理解,而对于cart算法的回归树,博主写的很详细,本文也是在阅读此博主后,将个人的理解记录下来。
2、cart回归树python实现:
构建过程,本人就简单叙述下:1、最小剩余方差的计算过程中,充分利用python的set集合特点,将去重后的属性下的属性值放入集合中,然后遍历每个属性特征值计算分类后的方差,这样在遍历了每个属性下的属性值以及所有属性后,将计算的方差最小值对应的属性以及属性值返回,这样就得到了当前的最优划分。2、根据最优化分,将数据集记录划分为左右子树,这里注意不需要将划分后的记录删除已经作为划分了的特征属性。3、判断是否继续划分,即节点是否有必要进行分裂,若训练集数量很多,本人认为采取卡方检验是个很好的方法,但是本文代码实现的数据集记录就十几个,故在此就将是否继续分裂的标准定为了没有特征属性进行划分了,或者所有标签属性值一样,又或者记录数小于一设定阈值。4、回到第一步,对划分的左右数据记录进行最优划分标准求解。
以下是cart回归树python代码的实现,回归树与模型树的构建方法都给出了相应的注释,数据集链接数据,密码:nrby:
from numpy import *
def loadDataSet(fileName):
'''
读取一个一tab键为分隔符的文件,然后将每行的内容保存成一组浮点数
'''
dataMat = []
fr = open(fileName)
for line in fr.readlines():
curLine = line.strip().split('\t')
fltLine = list(map(float,curLine))
dataMat.append(fltLine)
return dataMat
def binSplitDataSet(dataSet, feature, value):
'''
数据集切分函数
'''
mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:]
mat1 = dataSet[nonzero(dataSet[:,feature] <= value)[0],:]
return mat0,mat1
def regLeaf(dataSet):
'''负责生成叶节点'''
#当chooseBestSplit()函数确定不再对数据进行切分时,将调用本函数来得到叶节点的模型。
#在回归树中,该模型其实就是目标变量的均值。
return mean(dataSet[:,-1])
def regErr(dataSet):
'''
误差估计函数,该函数在给定的数据上计算目标变量的平方误差,这里直接调用均方差函数
'''
return var(dataSet[:,-1]) * shape(dataSet)[0]#返回总方差
def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
'''
树构建函数
leafType:建立叶节点的函数
errType:误差计算函数
ops:包含树构建所需其他参数的元组
'''
#选择最优的划分特征
#如果满足停止条件,将返回None和某类模型的值
#若构建的是回归树,该模型是一个常数;如果是模型树,其模型是一个线性方程
feat, val = chooseBestSplit(dataSet, leafType, errType, ops)
if feat == None: return val #
retTree = {}
retTree['spInd'] = feat
retTree['spVal'] = val
#将数据集分为两份,之后递归调用继续划分
lSet, rSet = binSplitDataSet(dataSet, feat, val)
retTree['left'] = createTree(lSet, leafType, errType, ops)
retTree['right'] = createTree(rSet, leafType, errType, ops)
return retTree
def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
'''
用最佳方式切分数据集和生成相应的叶节点
'''
#ops为用户指定参数,用于控制函数的停止时机
tolS = ops[0]; tolN = ops[1]
#如果所有值相等则退出
if len(set(dataSet[:,-1].T.tolist()[0])) == 1:
return None, leafType(dataSet)
m,n = shape(dataSet)
S = errType(dataSet)
bestS = inf; bestIndex = 0; bestValue = 0
#在所有可能的特征及其可能取值上遍历,找到最佳的切分方式
#最佳切分也就是使得切分后能达到最低误差的切分
for featIndex in range(n-1):
for splitVal in set(dataSet[:,featIndex].T.A.tolist()[0]):
mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)
if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue
newS = errType(mat0) + errType(mat1)
if newS < bestS:
bestIndex = featIndex
bestValue = splitVal
bestS = newS
#如果误差减小不大则退出
if (S - bestS) < tolS:
return None, leafType(dataSet)
mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
#如果切分出的数据集很小则退出
if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):
return None, leafType(dataSet)
#提前终止条件都不满足,返回切分特征和特征值
return bestIndex,bestValue
#剪枝
def isTree(obj):
'''判断输入变量是否是一棵树'''
return (type(obj).__name__=='dict')
def prune(tree, testData):
'''回归树剪枝函数'''
if shape(testData)[0] == 0: return getMean(tree) #无测试数据则返回树的平均值
if (isTree(tree['right']) or isTree(tree['left'])):#
lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])
if isTree(tree['left']): tree['left'] = prune(tree['left'], lSet)
if isTree(tree['right']): tree['right'] = prune(tree['right'], rSet)
#如果两个分支已经不再是子树,合并它们
#具体做法是对合并前后的误差进行比较。如果合并后的误差比不合并的误差小就进行合并操作,反之则不合并直接返回
if not isTree(tree['left']) and not isTree(tree['right']):
lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])
errorNoMerge = sum(power(lSet[:,-1] - tree['left'],2)) +\
sum(power(rSet[:,-1] - tree['right'],2))
treeMean = (tree['left']+tree['right'])/2.0
errorMerge = sum(power(testData[:,-1] - treeMean,2))
if errorMerge < errorNoMerge:
print("merging")
return treeMean
else: return tree
def getMean(tree):
'''从上往下遍历树直到叶节点为止,计算它们的平均值'''
if isTree(tree['right']): tree['right'] = getMean(tree['right'])
if isTree(tree['left']): tree['left'] = getMean(tree['left'])
return (tree['left']+tree['right'])/2.0
#构建模型树
def linearSolve(dataSet):
'''将数据集格式化成目标变量Y和自变量X,X、Y用于执行简单线性回归'''
m,n = shape(dataSet)
X = mat(ones((m,n))); Y = mat(ones((m,1)))
X[:,1:n] = dataSet[:,0:n-1]; Y = dataSet[:,-1]#默认最后一列为Y
xTx = X.T*X
#若矩阵的逆不存在,抛异常
if linalg.det(xTx) == 0.0:
raise NameError('This matrix is singular, cannot do inverse,\n\
try increasing the second value of ops')
ws = xTx.I * (X.T * Y)#回归系数
return ws,X,Y
def modelLeaf(dataSet):
'''负责生成叶节点模型'''
ws,X,Y = linearSolve(dataSet)
return ws
def modelErr(dataSet):
'''误差计算函数'''
ws,X,Y = linearSolve(dataSet)
yHat = X * ws
return sum(power(Y - yHat,2))
#模型树与回归树比较
def regTreeEval(model, inDat):
#为了和modeTreeEval()保持一致,保留两个输入参数
return float(model)
def createForeCast(tree, testData, modelEval=regTreeEval):
# 多次调用treeForeCast()函数,以向量形式返回预测值,在整个测试集进行预测非常有用
m=len(testData)
yHat = mat(zeros((m,1)))
for i in range(m):
yHat[i,0] = treeForeCast(tree, mat(testData[i]), modelEval)
return yHat
def treeForeCast(tree, inData, modelEval=regTreeEval):
'''
# 在给定树结构的情况下,对于单个数据点,该函数会给出一个预测值。
# modeEval是对叶节点进行预测的函数引用,指定树的类型,以便在叶节点上调用合适的模型。
# 此函数自顶向下遍历整棵树,直到命中叶节点为止,一旦到达叶节点,它就会在输入数据上
# 调用modelEval()函数,该函数的默认值为regTreeEval()
'''
if not isTree(tree): return modelEval(tree, inData)
if inData[tree['spInd']] > tree['spVal']:
if isTree(tree['left']): return treeForeCast(tree['left'], inData, modelEval)
else: return modelEval(tree['left'], inData)
else:
if isTree(tree['right']): return treeForeCast(tree['right'], inData, modelEval)
else: return modelEval(tree['right'], inData)
def modelTreeEval(model, inDat):
#对输入数据进行格式化处理,在原数据矩阵上增加第0列,元素的值都是1
n = shape(inDat)[1]
X = mat(ones((1,n+1)))
X[:,1:n+1]=inDat
return float(X*model)
if __name__=="__main__":
trainData=mat(loadDataSet('trainDataset.txt'))
testData=mat(loadDataSet('testDataset.txt'))
Mytree=createTree(trainData,ops=(1,20))
print(Mytree)
yHat=createForeCast(Mytree,testData[:,0])
print(corrcoef(yHat,testData[:,-1],rowvar=0)[0,1])#预测的结果与真实结果的相似性
#创建模型树
modelTree=createTree(trainData,modelLeaf,modelErr,ops=(1,20))
yHat = createForeCast(modelTree,testData[:,0],modelTreeEval)
print(corrcoef(yHat, testData[:, -1], rowvar=0)[0, 1]) # 模型树预测的结果与真实结果的相似性
注意:
在此处模型树构建过程与cart的回归树基本一致,区别在于在叶子节点处:回归树将叶子结点的记录求得方差值作为结果,而模型树求得是线性回归的系数作为叶子结点。
3、运行结果图
其中字典结构是最终生成的cart回归树;第二行是回归树预测的结果与真实结果的相似性,第三行是模型树与真实结果的相似性。
4、写在最后
有时间将介绍下使用Tkinter绘制GUI并结合Matplotlib实现交互式绘图,将数据信息以易于人们理解的方式呈现,便于观察对数据的具体分析。一起学习,一起进步。