kaggle titianic 全纪录

准备入门机器学习了 先从kaggle的 titianic 算法开始做起

https://blog.csdn.net/qifuchenluo/article/details/67655388

https://blog.csdn.net/qifuchenluo/article/details/67655388

https://blog.csdn.net/liufang0001/article/details/77856255

https://blog.csdn.net/guoxinian/article/details/73740746i

这几篇文章实在都非常好

我自己也是按上面来的 没有用上名字啊 这些不明显的特征。。

最好成绩用的随机森林,1将年龄作值划分之后减少了过拟合,2用gridsearch调节le最优参数才完成。

值得注意的是:

1 不做处理的话 直接用随机森林一直准确率无法提高,当然调参也可以获得部分提高。

2 不做值得泛华处理的话 逻辑回归表现也不好,原因很简单,值太多影响模型训练

3 年龄作泛化处理,也不是越精细越好 也不是越粗糙越好,究竟用什么方法最好,个人认为还是哪种方法更能刻画数据本身,

哪种方法才是最好的

4 年龄作泛化处理之后,一定要再次做自动调参,找出最优参数

5 自动调参也会有过拟合 比如说最优的参数中,产生叶子节点的最小例子为1 的话,可能在训练集有比较好的结果,但是这样明显过拟合,测试时表现性能不会太好。

暂时就这么多

猜你喜欢

转载自blog.csdn.net/cjneo/article/details/79775016