迁移学习应用—基于朴素贝叶斯的文本分类

今天的博客主要参考了戴文渊的2007年在AAAI上发表的论文《Transferring Naive Bayes Classifiers for Text Classification》。这篇paper遇到的任务场景是：source文本数据和task文本数据分布属于分布 $D_u$ 和 $D_l$ （同时这里的 $D_l$ 和 $D_u$ 并不满足独立同分布），而source文本是有标注的，task文本是没有标注的，任务是利用朴素贝叶斯算法，把在 $D_l$ 上学到的规律运用到 $D_u$ 上去。

下面首先来简要地介绍一下朴素贝叶斯分类算法，假设符号 $d$ 代表了document， $c$ 代表了class label， $w$ 代表了word，那么文本分类的目标就是：
$P(c|d)=P(c)\Pi_{w \in d}P(w|c)$
一种对 $P(w|c)$ 最好的估计方式是： $P(w|c)=\frac{1+n(w,c)}{|W|+n(c)}$
其中 $n(w,c)$ 代表了 $w$ 词在类别为 $c$ 的语料中出现的次数， $n(c)$ 代表了类别为 $c$ 语料中出现的词数总和。
根据最大后验估计原理，整个模型在 $D_u$ 和 $D_l$ 上的损失函数如下，h是模型参数：
$l(h|D_l,D_u)=>logP_{D_u}(h)+\sum_{d \in D_l}log\sum_{c \in C}P_{D_u}(d|c,h) . P_{D_u}(c|h)+\lambda\sum_{d \in D_u}log \sum_{c \in C}P_{D_u}(d|c,h).P_{D_u}(c|h)$
当label data数量比较少的时候， $\lambda$ 就可以设置的比较小。

接下来使用EM算法来对模型的参数进行估计，可以从公式看出所有的计算和估计都是在 $D_u$ 分布下进行的：
E_Step:
$P_{D_u}(c|d) => P_{D_u}(c) \Pi_{w \in d}P_{D_u}(w|c)$

M_Step:
$P_{D_u}(c)=>\sum_{i \in \{l,u\}}P_{D_u}(D_i).P_{D_u}(c|D_i)=>\sum_{i \in \{l,u\}}P_{D_u}(D_i).\sum_{d \in D_i}P_{D_u}(c|d).P_{D_u}(d|D_i)$

$_{D_u}(w|c)=>\sum_{i \in \{l,u\}}P_{D_u}(D_i).P_{D_u}(c|D_i).P_{D_u}(w|c,D_i)$
其中， $P_{D_u}(w|c,D_i)=\frac{1+n_{D_u}(w,c,D_i)}{|w|+n_{D_u}(c,D_i)}$
而 $n_{D_u}(w,c,D_i)=\sum_{d \in D_i}|d|.P_{D_u}(w|d).P_{D_u}(c|d)$
$n_{D_u}(c,D_i)=\sum_{d \in D_i}|d|.P_{D_u}(c|d)$
上述公式中， $P_{D_u}(w|d)$ 与 $P_{D_u}(d|D_i)$ 和分布 $D_u$ 没有关系，因此也可以表示为 $P(w|d)$ 与 $P(d|D_i)$
由于数据 $D_u$ 是从分布 $D_u$ 中采样生成的，故有 $P_{D_u}(D_u)>P_{D_u}(D_l)$ ，但是它们之间具体的函数关系是多少，作者采用了一中实验方法来获得：
首先作者使用KL散度来衡量这种差异：
$KL(D_l || D_u)=\sum_{w \in W} P_{D_l}(w) log_2\frac{P_{D_l}(w)}{P_{D_u}(w)}=\sum_{w \in W} P(w|D_l) log_2\frac{P(w|D_l)}{P(w|D_u)}$
接下来采用求解曲线拟合问题的方法来解决这个问题，即给两个变量(x,y)对应的一些取值，然后找出它们之间的映射关系 $f(x)=>y$
在该场景下x值就是KL散度，y值是 $\frac{P_{D_u}(D_l)}{P_{D_u}(D_u)}$ ，在几个数据集上调节y的取值到最好的效果，然后把这个时候的x值记录下来，这样在几个数据集上操作就可以获得好几对(x,y)的组合，接下来就可以进行函数拟合了。

迁移学习应用—基于朴素贝叶斯的文本分类

猜你喜欢