13.2 试基于朴素贝叶斯模型推导生成式半监督学习算法

回顾一下，朴素贝叶斯的假设是 $\mathbf x_{i}=(x_{i1},\ldots,x_{in})$ 中的所有 $x_{ij}$ 相互独立，结合贝叶斯公式可知，我们的目标是找到一个 $c_k \in \mathcal C$ ，最大化下式：

p (c k ∣ x i) = p (c k) p (x i ∣ c k) (1)

$p(c_k \mid \mathbf x_i)={p(c_k)p(\mathbf x_i \mid c_k)}\tag{1}$
此时的

ck $c_k$ 即为该样本

xi $\mathbf x_i$ 的分类，即：

h (x i) = a r g max c k p (c k) p (x i ∣ c k) = a r g max c k p (c k) \cdot \prod j = 1 N p (x i j ∣ c k) (2)

$h(\mathbf x_i)=\mathrm {arg}\max_{c_k} {p(c_k)p(\mathbf x_i \mid c_k)}=\mathrm {arg}\max_{c_k}p(c_k)\cdot \prod_{j=1}^{N}p(x_{ij}\mid c_k)\tag{2}$
假定各个类别与一个混合模型中的独立成分一一对应，混合模型的参数为

Θ $\Theta$ ，则上式可以写为：

h (x i) = a r g max k p (θ k) \cdot \prod j = 1 N p (x i j ∣ θ k) (3)

$h(\mathbf x_i)=\mathrm {arg}\max_{k}p(\theta_k)\cdot \prod_{j=1}^{N}p(x_{ij}\mid \theta_k)\tag{3}$
令

Θ k = p (θ k), Θ x i j ∣ j, k = p (x i j ∣ θ k), x i j \in A j k (4)

$\Theta_k=p(\theta_k),\Theta_{x_{ij}\mid j,k}=p(x_{ij}\mid \theta_k),x_{ij}\in A_{jk}\tag{4}$
其中

Ajk $A_{jk}$ 表示第

k $k$ 类样本在属性

j $j$ 上所有可能的取值的集合，则：

h (x i) = a r g max k Θ k \cdot \prod j = 1 N Θ x i j ∣ j, k (5)

$h(\mathbf x_i)=\mathrm {arg}\max_{k}\Theta_k\cdot \prod_{j=1}^{N}\Theta_{x_{ij}\mid j,k}\tag{5}$

此时，将 $D_l$ 中第 $k$ 类样本的集合记为 $l_k$ ， $D_u$ 中用伪标记分类的第 $k$ 类样本的集合记为 $u_k^*$ ， $l_k$ 中第 $j$ 个属性取值为 $x_{ij}$ 的集合记为 $l_{k,x_{ij}}$ ， $u_k^*$ 中第 $j$ 个属性取值为 $x_{ij}$ 的集合记为 $u_{k,x_{ij}}^*$ ，我们可以对 $\Theta_k,\Theta_{x_{ij}\mid j,k}$ 进行参数估计：

Θ^k Θ^x i j ∣ j, k = | l k | + | u * k | + 1 | l | + | u * | + | C |, = | l k , x i j | + | u * k , x i j | + 1 | l k | + | u * k | + | A j k | (6) (7)

$\begin{align} \hat\Theta_k &= {{\vert l_k\vert+\vert u_k^*\vert+1}\over {\vert l\vert+\vert u^*\vert+\vert \mathcal C\vert}},\tag{6} \\ \hat \Theta_{x_{ij}\mid j,k} &={{\vert l_{k,x_{ij}}\vert+\vert u_{k,x_{ij}}^*\vert+1}\over {\vert l_k\vert+\vert u_k^*\vert+\vert A_{jk}\vert}}\tag{7} \end{align}$
基于上述参数估计方法，可构建如下算法：

输入：有标记数据 $D_l$ 和未标记数据 $D_u$ ；
只使用 $D_l$ ，利用 $(6),(7)$ 计算出朴素贝叶斯模型的初始参数 $\hat \Theta_k^{(0)},\hat\Theta_{x_{ij}\mid j,k}^{(0)}$ ，并令 $u_k^*=\varnothing$
循环，当 $\hat\Theta_k^{(m)},\hat\Theta_{x_{ij}\mid j,k}^{(m)} \ne \hat\Theta_k^{(m+1)},\hat\Theta_{x_{ij}\mid j,k}^{(m+1)}$ 时：
- E-step: 将 $\hat\Theta_k^{(m)},\hat\Theta_{x_{ij}\mid j,k}^{(m)}$ 带入式 $(5)$ 获取所有样本 $\mathbf x_i \in D_u$ 的伪标记 $c_{i}^{*}$ ，并令 $D_u^*=\{(\mathbf x_i,c_i^*)\}$
- M-step: 利用更新后的 $D_u^*$ ，结合 $D_l$ ，利用 $(6),(7)$ 计算出朴素贝叶斯模型的参数 $\hat \Theta_k^{(m+1)},\hat\Theta_{x_{ij}\mid j,k}^{(m+1)}$
输出： $\hat \Theta_k,\hat\Theta_{x_{ij}\mid j,k}$ ，朴素贝叶斯分类器 $h(\mathbf x)$ ，已完成分类的 $D_u^*$ 。

机器学习-周志华-个人练习13.2

13.2 试基于朴素贝叶斯模型推导生成式半监督学习算法

猜你喜欢