scikit-learn与mllib

文本预处理
提取特征
特征选择
选择分类算法
训练和评估
转载自 https://www.cnblogs.com/pinard/p/6007200.html

如果只是做研究，那么选择就很多了，主流的有三种。

　　　　第一种是基于Spark MLlib来学习。好处是学到的东西用到生产环境可以无缝切换，但是坏处也很明显，Spark东西很多，在自己的单机上跑很吃内存，比较慢，而且MLlib的类库并不丰富，很多算法需要自己再去找类库。根据周围同事的反馈，比较吃力，因此基于Spark MLlib来学习机器学习，我个人觉得不是一个好的选择。

　　　　第二种是基于scikit-learn为主的一系列python工具来学习，包括上面提到的numpy, scipy, pandas, MatplotLib等等。好处是类库多，API强大，可以让你专注于数据的分析，例子也多，学习起来不难。当然也有缺点，就是这一大堆的python库，要熟练的用起来需要一段时间。个人比较推荐这种方法，周围同事来说，用scikit-learn学习交流也是主流。

　　　　第三种是基于R的平台来做机器学习（不包括Spark R），主要平台是R studio。由于R是一门比较老的语言，因此他的数据处理和机器学习的API比较丰富，尤其是对于之前做数据分析师的人来说更是熟悉不过。但是R是一门相对封闭的语言，社区远远没有Python的活跃，而且对于程序员来说， R的那种语法让人难受。几年前，一般会认为R的机器学习比Python的好，但是现在Python已经将R远远甩在了后面。因此，除非你之前已经很熟悉R语言，否则完全不推荐用R来研究机器学习，BTW，这里没有歧视R的意思。

　　　　总之，如果你想研究学习机器学习，并且没有特殊的R背景，scikit-learn是你的首选。当然，有人会说，我喜欢自己去一点点的实现机器学习的算法，不喜欢直接调用类库，这样不行吗？当然，这样肯定是非常不错的，并且对加深各个算法理解很有好处。只是这样比较的花时间，如果你和我一样时间不太多的话，还是直接调用API来研究数据比较直接。

猜你喜欢