机器学习套路三步走

机器学习的套路

  • 1.model如何对现实的场景进行抽象
  • 2.model如何对参数进行求解
  • 3.model的效果如何评价

1.抽象

例如线性回归,就是认为预测变量y和特征X之间存在线性关心,老掉牙的例子就是房价和地区收入,人口密度等等的线性关系
线性回归的数学假设有两个部分:
1. y的预测值是数据特征的线性变换。这里的参数是一组系数。而y的系数和数据特征的线性组合。
2.y的预测值和实际值之间存在一个误差,这个误差是符合正太分布的

2.参数求解

参数求解每个模型都不一样,一般通用的就是SGD和各种变种
还以上面的线性回归为例,求解的参数就是y=Wx中的W

3.评价

评价模型的效果好不好,均方误差,logloss等等
上面的线型模型因为假设预测值和实际值的误差是符合正太分布,所以一般用均方误差

总结

第一步抽象很重要,第二步作为普通人主要是使用现成的算法进行参数求解,第三步往往已经在实际的生产环境中确定了模型的评价标准
一般的经验是在用一个模型对数据进行训练的时候,如果训练集上欠拟合,可能是模型的表征能力不行对应;如果在测试集上过拟合,那可能就是模型的表征能力太强,噪声都被学习了。至于模型的迭代和改进这又是另一个问题了。

猜你喜欢

转载自www.cnblogs.com/peinwu/p/10070191.html