机器学习算法的分类、机器学习的开发流程

机器学习算法分类

监督学习(预测,有目标)

  1. 分类

    • K-近邻算法
    • 贝叶斯算法
    • 决策树与随机森林
    • 逻辑回归
  2. 回归

    • 线性回归
    • 岭回归
  3. 分类的概念

    • 分类是监督学习的一个核心问题,在监督学习中,当输入变量取有限个离散值时,预测问题变成分类问题. 基础的便是二分类问题即判断是非,从两个类别中选择一个作为预测结果.
  4. 回归的概念

    • 回归是监督学习的另一个重要问题.回归用于预测输入变量和输出变量之间的关系,输出是连续型的值.

无监督学习(无目标) 

  • 聚类

    • k-means

监督学习 : 特征值 + 目标值

非监督学习 : 特征值

数据类型:

  1. 离散型数据 :
    • 由记录不同类别个体的数目所得到的数据,又称为计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高它们的精确度.
  2. 连续型数据:
    • 变量可以在某个范围内取任一数,即变量的取值可以是连续的,如:长度,时间,质量值等.这类数 通常是非整数,含有小数部分
    • 注意: 只要记住一点,离散型是区间内不可分,连续型是区间内可分.
    • 数据类型是机器学习模型不同问题不同处理的依据.
  3. 分类 : 离散型
  4. 回归 : 连续型

sklearn 中的常用模型 :

  1. 用于分类的模型(估计器)
      • sklearn.neighbors  k-近邻算法啊
      • sklearn.naive_bayes  贝叶斯
      • sklearn.linear_model.LogisticRegression    逻辑回归
      • sklearn.tree      决策树与随机森林  
  2. 用于回归的模型
      • sklearn.linear_model_LinearRegression    线性回归 
      • sklearn.linear_model.Ridge    邻回归  

  *** 模型就是实现了具体算法的API, 这些API需要理解其参数.。*** 


机器学习的开发流程

1. 数据收集

  • 公司本来就有数据
  • 合作公司提供数据
  • 购买数据
  • 爬虫爬数据,数据预处理

2. 根据需要解决的问题, 对数据进行预处理

  • 数据清洗
  • 缺失值
  • 合并
  • 不仅限于 ,具体问题具体对待

3. 特征工程

  • 特征抽取
  • 归一化
  • 标准化
  • 降维

4. 常用算法选择

  • 分类
  • 回归

5. 模型验证

  • 模型的评估,判定效果

6. 模型报错保存

  • 保存上线

猜你喜欢

转载自www.cnblogs.com/luowei93/p/11964717.html