伯克利的机器学习课的note当中简要介绍了一下PPCA, 但是我看了感觉没写什么东西。Yu姐上PPCA那节课我翘了，导致我对于PPCA几乎是一无所知。碰巧翻了一下工大自己的机器学习课的ppt，翻到了关于PPCA的内容，所以就结合CS189的note了解了一下PPCA。

1. Key assumptions

PPCA假设所有的样本点都取样于某个分布 ${\bf x} \in {\Bbb R}^{d}$ ，对于每个点 $x_i$ ，都有一个 $z_i$ 与之对应，取样于某个分布 ${\bf z} \in {\Bbb R}^{k}$ , 满足以下条件：
${\bf x} = W{\bf z}+\mu +\epsilon , W \in {\Bbb R}^{d \times k}, \mu \in {\Bbb R}^{d }, \epsilon \in {\Bbb R}^{d}, \epsilon \sim N(0,\sigma^2I)$
其中 $W,\mu$ 都是常数， $\epsilon$ 是 $iid$ 的 noise

这个 ${\bf z}$ 被称为latent variable

关于latent variable，可以简单的理解为我们看不见（观测不到）的变量，是我们希望从可观测到的变量推断的一个变量。

因为高斯分布的条件分布、联合分布都是高斯分布，所以，我们可以得到：
$E[x] = E[\mu + Wz + \epsilon] = \mu$
$C = Cov[x]=E[(\mu+Wz+\epsilon -\mu)(\mu+Wz+\epsilon -\mu)^T] = E[(Wz+\epsilon)(Wz+\epsilon)^T] = WW^T + \sigma^2I$

所以，
$p(x|\theta) \sim N(\mu, WW^T + \sigma^2I)$

2. Maximum Likelihood Estimation

对于一个概率分布模型，我们常用的手段是 MLE ：
$\mathcal {L}(\theta ;X) = \sum_{i = 1}^Nlog(p(x_i|\theta))= -\frac{N}{2}log(|C|) - \frac{1}{2}\sum_{i = 1}^{n}(x_n-\mu)^TC^{-1}(x_n-\mu)$

最终我们得到：
$\mathcal {L}(\theta ;X) =-\frac{N}{2}log(|C|) - \frac{1}{2}Tr(C^{-1}\sum_{i = 1}^{n}(x_n-\mu)(x_n-\mu)^T)$
$argmax\mathcal {L}(\theta ;X)= argmin-\mathcal {L}(\theta ;X) = argmin \space \{\frac{N}{2}log(|C|) + \frac{1}{2}Tr(C^{-1}\sum_{i = 1}^{n}(x_n-\mu)(x_n-\mu)^T)\}$

3.Optimize over the object function

首先先贴几个公式：
$dtr(X) = tr(dX)$
$dX^{-1} =-X^{-1}dXX^{-1}$
$Tr(ABC) = Tr(BCA) = Tr(CAB)$
$d|X| = tr(X^*dX)=|X|\cdot Tr(X^{-1}dX)(如果X可逆)$ ， $X^*是伴随矩阵$
直接考虑关于 $W$ 的梯度过于困难，可以先考虑关于 $C$ 的梯度：

$\frac{\partial \mathcal {L}}{\partial C} =\frac{N}{2}\cdot \frac{\partial }{\partial C} log(|C|)+\frac{N}{2}\cdot \frac{\partial }{\partial C} Tr(C^{-1}S)$ $S = \sum_{i = 1}^{n}(x_n-\mu)(x_n-\mu)^T$

$d(log(|C|) )= \frac{1}{C}\cdot d|C| = Tr(C^{-1}dC)$
$dTr(C^{-1}S) = Tr(dC^{-1}\cdot S) = Tr(-C^{-1}\cdot dC\cdot C^{-1}S) = Tr(-C^{-1}SC^{-1}\cdot dC)$

所以，
$dL = \frac{N}{2}Tr((C^{-1}-C^{-1}SC^{-1})\cdot dC)$
根据导数和微分的联系，
$\frac{\partial L}{\partial C} = C^{-1}-C^{-1}SC^{-1}$
所以，将其置为0求极值：
$S = C$
$S = WW^T+\sigma^2I$
对两边进行SVD，得到
$W = U_S(\Lambda-\sigma^2I)^{-2}R$
$U_S$ 是 $S$ 的特征向量矩阵， $\Lambda$ 是 $S$ 的特征值矩阵， $R$ 是任意正交矩阵（一般取 $S$ 的左奇异矩阵）
之后对这个结果取d-rank approximation即可,d就是你想得到的PC的个数

至此为止，我们通过概率模型得到了我们通过一般PCA得到的结果

4. References

Tipping, M. E., & Bishop, C. M. (1999). Probabilistic principal component analysis
哈工大2019年秋季机器学习课程slides的ppca部分(p16-p27)
note 10, CS189, UC Berkeley
https://zhuanlan.zhihu.com/p/24709748

这里仅仅是推导，以后如果有时间的话我再深入理解下ppca……

我永远热爱计算机科学与技术

发布了5 篇原创文章 · 获赞 4 · 访问量 1107

私信关注

PPCA(Probability PCA)

1. Key assumptions

2. Maximum Likelihood Estimation

3.Optimize over the object function

4. References

猜你喜欢