---恢复内容开始---
分类:用一部分属性去预测另一部分属性
预测:根据自变量给出因变量的估计值
分类和预测本质上一回事
回归类预测和分类:
Logistic回归(因变量为0,1)
softmax回归(因变量为类别型)
泊松回归(因变量为计数)
Lesso回归:限制模的长度/岭回归:限制模的平方(出现多重共线性)
稳健回归Robust:对异常值十分敏感的目标函数进行修改,例如最小中位平方(LMS)法
分类模型:决策树
1.决策树的生成:
贪婪算法,局部最优
根据某一属性对数据进行分裂,以达到某一标准最优值
2.如何度量节点的纯度:
(1)GINI index
GINI越大表示越不纯
3.熵
熵越大越不纯
4.Gain信息增益
5.信息增益比:防止过拟合
朴素贝叶斯
支持向量机:
最大化‘Margin’
可以经过转换,使得高次降次,最后变成直线
---恢复内容结束---
分类:用一部分属性去预测另一部分属性
预测:根据自变量给出因变量的估计值
分类和预测本质上一回事
回归类预测和分类:
Logistic回归(因变量为0,1)
softmax回归(因变量为类别型)
泊松回归(因变量为计数)
Lesso回归:限制模的长度/岭回归:限制模的平方(出现多重共线性)
稳健回归Robust:对异常值十分敏感的目标函数进行修改,例如最小中位平方(LMS)法
分类模型:决策树
1.决策树的生成:
贪婪算法,局部最优
根据某一属性对数据进行分裂,以达到某一标准最优值
2.如何度量节点的纯度:
(1)GINI index
GINI越大表示越不纯
3.熵
熵越小