机器学习笔记（八）非监督学习 - 代码天地

机器学习笔记（八）非监督学习

其他 2019-10-27 16:00:58 阅读次数: 0

K-Means cluster （K-均值聚类）

1、算法思想：

算法分为两个步骤，簇分配和移动聚类中心。

在每次循环中，第一步是簇分配，即遍历样本，依据更接近哪一个聚类中心，分配到不同的聚类中，如下图所示；

在确定分类后，根据堆点的均值移动聚类中心，如下图所示；

依据新的聚类中心，再次进行簇分配，如下图所示；

如此循环，直到聚类不再变化，即可称为“收敛”。

2、变量表示：

聚类的数量： K

训练集： {x⁽¹⁾, x⁽²⁾, ..., x^(m)} 其中 x⁽ⁱ⁾是n维向量，因为不需要额外添加 x_{0 .}

3、算法表示：

4、Optimization objective（优化目标函数）：

5、Random initialization（随机初始化）：

要求 K ＜ m；

随机选取 K 个训练样本作为聚类中心；

设置 μ₁， ...， μ_K 等于这几个样本值，即 μ_i = x_i .

可能存在局部最优的问题：

对应方法：多次随机初始化，选出代价最低的一个方法，具体如下：

6、选择聚类的数量：

（1）方法一：Elbow method（肘部法则）：改变 K 的值，计算代价函数 J，绘制对应曲线. 选择曲线的肘点，即代价值下降速度的转折点.

该方法不常用，原因是代价值下降的速度往往很相似，难以区别肘点 .

（2）方法二：依据不同的聚类数量提供的结果优劣.

Dimensionality reduction（维数约减）

1、维数约减的应用：

（1）应用一：数据压缩

将高维的数据映射为低维的数据.

如2维数据映射到一条直线上：

如3维数据映射到一个平面上：

（2）应用二：数据可视化

由于数据只能通过二维或者三维进行可视化，更高维度的数据需要进行压缩处理.

如遇到50维的特征，需要找出一种压缩方法，表示成2维的向量，再进行2D图像的绘制.

2、Principal Component Analysis（主成分分析法 PCA）：

（1）问题定义：寻找一组向量，定义一个低维的空间，使得投影误差的平方和达到最小值。

（2）与线性回归的区别：

线性回归：最小化预测值与样本值之间的距离，即 y 的差值；

PCA：最小化样本值和低维空间的距离，即垂线的长度；

（3）算法流程：

① 数据初始化：对于训练集 {x⁽¹⁾, x⁽²⁾, ..., x^(m)} 进行特征缩放和均值归一化：

计算 μ：；

替换 x：x_j⁽ⁱ⁾ = x_j - μ_j，使得所有特征的均值为0；

除以s_j：s_j可以用最大最小值或者标准差表示，x_j⁽ⁱ⁾ = (x_j - μ_j) / s_j .

② PCA算法：将 n 维降低到 k 维

计算协方差矩阵（covariance matrix），记作sigma矩阵：，规格为 n*n；

使用svd（singular value decomposition 奇异值分解）函数计算sigma矩阵的特征向量（eigenvector）：

其中 U 也为 n*n， U的前 k 列即为所求的k个向量，记作 U_reduce ，即规格为 n*k；；

将获得的 k 列特征向量转置成行向量，计算 Z = U_reduce^T*X，由于 X 的规格为 n*m，Z 的规格为 k*m；

③ 总结：

什么是协方差矩阵？【传送门】

3、Reconstruction from compressed representation（原始数据重构）：

压缩矩阵求法：Z = U_reduce^T*X

数据重构求法：X_approx = U_reduce*Z

X_approx 的每一个点都是原X值的近似点。

4、选择主成分的数量：

（1）概念：

Average squared projection error（平均平方映射误差）：PCA最小化的量；

Total variation（总变差）：每一个训练样本长度的平均值（平均来看训练样本距离零向量有多元）；

Average squared projection error =

Total variation =

选择的k值要满足：（即保留99%的差异性，通常保留95%以上的差异性）

（2）算法流程：

（3）代码实现：

其中 S 是一个只有主对角线非零的 n*n 矩阵，其主对角线为[S₁₁, S₂₂, ..., S_nn].

5、在监督学习中使用PCA提高算法的速度：

① 数据集 {(x⁽¹⁾, y⁽¹⁾), (x⁽²⁾, y⁽²⁾), ..., (x^(m), y^(m))}，每一个数据 x 是10000维向量；

② 提取出 X，视为不带标签的训练集，即无监督学习，使用PCA算法，转为1000维；

③ 得到新的数据集 {(z⁽¹⁾, y⁽¹⁾), (z⁽²⁾, y⁽²⁾), ..., (z^(m), y^(m))}

猜你喜欢

转载自www.cnblogs.com/orangecyh/p/11743903.html

机器学习笔记（八）非监督学习

机器学习---监督学习和非监督学习

【机器学习-EN】监督学习与非监督学习笔记

机器学习笔记---监督学习与无监督学习

非监督学习

监督学习与非监督学习

[云炬python3玩转机器学习笔记] 2-3监督学习、非监督学习、半监督学习和增强学习

机器学习笔记：监督学习

[机器学习笔记] 1监督学习

机器学习笔记之监督学习

机器学习、监督学习、非监督学习、强化学习、深度学习、迁移学习

机器学习_监督学习、非监督学习、半监督学习以及强化学习概念介绍

机器学习，监督学习，非监督学习，强化学习

机器学习基础：监督学习、非监督学习、强化学习

吴恩达机器学习（一）监督学习与非监督学习

【每日一更】＜吴恩达-机器学习＞监督学习&非监督学习

百面机器学习（5）非监督学习

机器学习day13非监督学习

吴恩达机器学习笔记之非监督学习

【机器学习笔记day27】5.1. 非监督学习之k-means

【机器学习笔记day26】5. 非监督学习

百面机器学习总结笔记（第五章非监督学习）

《百面机器学习》读书笔记（五）-非监督学习

监督学习笔记

Andrew Ng机器学习课程笔记（八）之监督学习之Support Vector Machine（3）

机器学习：监督学习

机器学习学习笔记2-有监督学习和无监督学习

【学习笔记】非监督学习-k-means

Python笔记6---tensorflow中监督学习与非监督学习

Coursera机器学习笔记(一) - 监督学习vs无监督学习

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)