1.部分算法归纳
2.机器学习、人工智能和数据挖掘的关系
3.机器学习一些算法的细化
主要分为:分类、聚类、关联、回归、推荐、优化…
或者概括说总体上分为两大类,监督和非监督。
分类算法:支持向量机(低维到高维)、神经网络(识别手写体0-9)、Bayes网络、K-最邻近、BP算法、决策树ID3算法(判断动物类型)。
聚类算法:自组织网络、Hopfield网络、K-means(大量样本计算距离分群)
多元线性回归(通过图片识别PM2.5)。
深度学习:通过构建多个隐藏层和大量数据来学习特征,从而分类和预测的准确性。
4.监督和非监督的算法举例
监督:决策树、随机森林(基本上所有分类算法都是有监督的)、回归分析(数值型)等。
非监督:聚类算法(只需要给样本即可),关联分析(购买A和B商品、浏览A网站和B网站、患A疾病和B疾病)、推荐算法(信息过滤技术、文本分析)等。
5.机器学习常见问题
用数据可视化方法看数据的大致分布、是否有噪声,数据预处理占整个机器学习项目的60%的工作量。
- 数据量过多(过拟合)
- 数据量过少(拟合不足)
- 维度灾难(抽取文档的主题代替关键词、主成分分析、因子分析)
- 数据不完整(补充仿真或加噪声产生或统计学的众数中位数)
- 重复数据
- 异常数据(3 )
- 数据不一致(归一化)