1.从协方差矩阵开始——协防差矩阵和样本阵的关系
定义1: 协方差
Cov
(X,Y)=E{[X−E(X)][Y−E(Y)]}=E(XY)−2E(X)E(Y)+E(X)E(Y)=E(XY)−E(X)E(Y)
意义: 度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。
引自:https://blog.csdn.net/GoodShot/article/details/79940438。可以参考其中配图。
注1: Cov
(X,X)=E(X2)−(E(X))2=D(X) 样本X自身协方差为其方差。
定义2: 样本方差
σ2=m−1∑i=1m(Xi−Xˉ)2, 其中
Xˉ=m∑i=1mXi, 为
{Xi}的均值。
定义3: 样本协方差
Cov
(X,Y)=m−1∑i=1m(Xi−Xˉ)(Yi−Yˉ)
显然有Cov
(X,Y) = Cov
(Y,X)。
那么,对于只有两个特征
X和
Y的情况(即
X、
Y两个维度),可以有协方差矩阵
CX,Y=(Cov(X,X)Cov(Y,X)Cov(X,Y)Cov(Y,Y))。
对于有三个特征
X、
Y和
Z的情况(即
X、
Y和
Z三个维度),有协方差矩阵
CX,Y,Z=⎝⎛Cov(X,X)Cov(Y,X)Cov(Z,X)Cov(X,Y)Cov(Y,Y)Cov(Z,Y)Cov(X,Z)Cov(Y,Z)Cov(Z,Z)⎠⎞。
注2: 可见,协方差矩阵
C是一个实对称矩阵。关于实对称矩阵的主要性质如下:
1.实对称矩阵A的不同特征值对应的特征向量是正交的。
2.实对称矩阵A的特征值都是实数,特征向量都是实向量。
3.n阶实对称矩阵A必可对角化,且相似对角阵上的元素即为矩阵本身特征值。
4.若λ0具有k重特征值 必有k个线性无关的特征向量,或者说必有秩r(λ0E-A)=n-k,其中E为单位矩阵。
故,协方差矩阵
C可以正交分解为对角阵。
定理 1: 有实对称矩阵
A∈Rn×n,则一定存在正交阵
U,使
UTAU=U−1AU=Λ=diag
(λ1,λ2,…,λn)
电脑莫名其妙重启了。。。继续撸。。。
以下以
X=(x1,x2,…,xm),m∈N为例,进行说明。其中,
xi是
X的第
i个特征。
注3: 在我们处理数据
X以前,我们要做的是数据中心化,这是后续工作的前提。
设
X为有
n个特征,
m个样本的数据
X=⎝⎜⎜⎛x1,1−μ1x2,1−μ1…xm,1−μ1x1,2−μ2x2,2−μ2…xm,2−μ2…………x1,n−μnx2,n−μn…xm,n−μn⎠⎟⎟⎞,其中
μi为第
i个特征的均值。
此时
x∙,j为0均值样本,
μj=0。
对于
X中的任意两个特征
xi和
xj,记
ci,j=Cov
(xi,xj)=E{[xi−μi][xj−μj]}=E{xixj}=m1∑l=1mx∙,ix∙,j=m1X∙,iTX∙,j
其中,
X∙,i是样本
Xm×n中的第
i列。
所以,样本
X的协方差矩阵
CX
={ci,j}=m1XTX (注:如果是无偏估计,则为
m−11)。
扣题:上式就是协方差阵和样本阵的关系。
2.求映射阵
Qn×k使由
n维降维至
k维
设目标为降维的矩阵为
Y,映射阵为
Q,有关系
Ym×n=Xm×nQn×n
降维的话,
Ym×k=Xm×nQn×k
降维的原则: 新的到的
Y的方差尽可能大,协方差尽可能小。
根据上一节最后一个公式,设
CY为样本
Y的协方差矩阵,有
CY
=m1YTY=m1(XQ)TXQ=m1QTXTXQ=QTCXQ
考虑到定理1中是对称矩阵可以正交分解,故令
Q=U,有
CY
=QTCXQ=UTCXU=Λ=diag
(λ1,λ2,…,λn)
在此,我们不妨假设
λ1≥λ2≥⋯≥λn,对应的特征向量为
u1,u2,…,un。即,
λi已经排列好大小。则取前
k个特征向量,组成
Qn×k=(u1,u2,…,uk),其中
0<k<n。
扣题:
Ym×k=Xm×nQn×k实现了数据的降维。
3.数据的复原(重构)
X′m×n=Ym×k(Qn×k)T 即是数据的重构!
注意: 由
Y=XQ得出
X=YQT的结论是错误的。应为
X′=YQT,
X为中心化之后的原始数据,
X‘才是重构后的复原数据。
以下图为例,进行说明。图片引自https://blog.csdn.net/hustqb/article/details/78394058
X中心化后得到
X=((−1,−2),(−1.0),(0,0),(0,1),(2,1))5×2 5个样本,红色星号。降维后得到
Y=(y1,y2,y3,y4,y5)5×1T 5个数,是1维数据,不是点。蓝色斜线为
u1=(u1,1,u1,2)T为
CX最大特征值
λ1对应的特征向量。
Q=(u1)2×1。
此时的Y,已经损失了部分信息——损失了绿色的截线长度的信息,
YQT也不能重新获得这些信息。
YQT仅仅是将Y={y1,y2,y3,y4,y5}这5个数映射在方向
u1=(u1,1,u1,2)T上,形成排列在一条线上的5个点——
X′,而不是原先成散布状的原始数据
X。