机器学习初识

1.部分算法归纳


在这里插入图片描述

2.机器学习、人工智能和数据挖掘的关系


在这里插入图片描述

3.机器学习一些算法的细化


主要分为:分类、聚类、关联、回归、推荐、优化…
或者概括说总体上分为两大类,监督和非监督。
分类算法:支持向量机(低维到高维)、神经网络(识别手写体0-9)、Bayes网络、K-最邻近、BP算法、决策树ID3算法(判断动物类型)。
聚类算法:自组织网络、Hopfield网络、K-means(大量样本计算距离分群)
多元线性回归(通过图片识别PM2.5)。
深度学习:通过构建多个隐藏层和大量数据来学习特征,从而分类和预测的准确性。

4.监督和非监督的算法举例


监督:决策树、随机森林(基本上所有分类算法都是有监督的)、回归分析(数值型)等。
非监督:聚类算法(只需要给样本即可),关联分析(购买A和B商品、浏览A网站和B网站、患A疾病和B疾病)、推荐算法(信息过滤技术、文本分析)等。

5.机器学习常见问题


用数据可视化方法看数据的大致分布是否有噪声,数据预处理占整个机器学习项目的60%的工作量。

  • 数据量过多(过拟合)
  • 数据量过少(拟合不足)
  • 维度灾难(抽取文档的主题代替关键词、主成分分析、因子分析)
  • 数据不完整(补充仿真或加噪声产生或统计学的众数中位数)
  • 重复数据
  • 异常数据(3 σ \sigma原则 )
  • 数据不一致(归一化)
发布了22 篇原创文章 · 获赞 3 · 访问量 3104

猜你喜欢

转载自blog.csdn.net/weixin_39920026/article/details/103965413
今日推荐