机器学习处理

http://www.aboutyun.com/forum.php?mod=viewthread&tid=21514
Spark【python】开发者—Spark与Twitter数据的机器学习实践
问题导读:
1. Spark MLlib 在应用架构中是什么位置?
2. Spark MLlib 中算法怎么分类的?
3. 监督和非监督式学习的异同点?
4. 机器学习的工作流和数据流是如何工作的?
5. 如何用Twitter 数据集聚类?
6. 如何在Twitter 数据集上应用Scikit-Learn?

https://monkeylearn.com/blog/gentle-guide-to-machine-learning/
A Gentle Guide to Machine Learning
一、现实中的机器学习
1.图像处理
 图像标签
 图形识别
 汽车自动驾驶

2.文本分析
 垃圾邮件过滤
 情感分析
 信息提取

3.数据挖掘
 异常检查
 关联规则
 聚类
 预测

电脑游戏和机器人

二、机器学习算法分类
 监督学习和无监督学习
1.监督学习
 分类
 回归
2.无监督学习
 聚类算法

三、机器学习算法
支持向量机
概率模型
深度学习

四、使用机器学习要注意的几个方面
1.应该用什么机器学习算法?
 监督还是无监督
 分类、回归还是聚类
 深度学习、支持向量机、朴素贝叶斯、决策树

2.特征工程
 (1)特征提取
  将行数据转化为特征向量
 (2)特征选择
  特征选择算法
  避免选择过多的特征 可能会造成维灾难

五、训练样本

六、测试样本并验证规律
 训练样本和测试样本不能相交
 过拟合:模型过度依赖训练样本,预测效果欠佳
 避免过拟合的方法是尽量使用简单的模型和更少的特征,简化模型并且使用更大且更具有代表性的训练集
 除了准确率,还要注意精确率和召回率
 混淆矩阵可以用来测试分类算法的准确性

七、应用

猜你喜欢

转载自blog.csdn.net/abc50319/article/details/87968227