一、定义

1.源域和目标域

源域(Source)和目标域(Target)之间不同但存在联系(different but related)。迁移学习的人物是从源域学习到知识并使其在目标域中取得较好的成绩。

迁移学习可以分为正迁移(postive transfer)和负迁移(negtive transfer)，划分依据是迁移学习的效果好坏。

2.迁移学习的优势

①缺乏大量(已标注)数据或计算资源

②需要快速训练个性化模型

③冷启动服务(例如一个新用户的产品推荐，可以依赖用户关联来做)

二、相关符号

域(Domain)： $D:{(x_i,y_i)}^N_{i=1}\sim P(x,y)$

源域(Source Domain): $D_s$ ，目标域(Target Domain): $D_t$

任务(Task)： $y=f(x)$

条件：需要满足以下两个条件之一才是迁移学习：

①域不同： $P(x,y)\neq Q(x,y)$

②任务不同: $T_S \neq T_t$

三、迁移学习

1.域不同

$P(x,y) \neq Q(x,y)$ 进行贝叶斯展开后： $P(x,y)=P(y|x)P(x)$

如果 $P(y|x)$ 相同，其具有不同的边缘分布(marginal distribution)：

$x_s \sim P_s(X),x_t\sim P_t(X)\rightarrow P_s(X) \neq P_t(X)$

如果 $P(x)$ 相同，其具有不同的条件分布(conditional distribution)：

$P_s(y|x) \neq P_t(y|x)$

2.损失函数

经验风险最小化(ERM)： $f^*=argmin_f \frac{1}{m}\sum _{i=1}^m L(f(x_i),y_i)$ ；其中 L 为损失函数

上述公式是一般机器学习使用的迭代公式，在迁移学习中，一般通过在后面加入一个迁移正则化表达式（Transfer regularization），可以表示如下：

$f^*=argmin_f \frac{1}{m}\sum _{i=1}^m L(f(x_i),y_i) + \lambda R(x_i,y_i)$ ；其中 R 即为需要学习的参数，一般分以下几种情况对 R 进行学习：

① $D'_s\subseteq D_s$ (子集)，可得 $P(x,y) \approx Q(x,y)$ ，这种情况下不需要R

②R可以写作 $Distance(D_s,D_t)$ 或 $Separability(D_s,D_t)$

③当两个任务相似时( $f_s \approx f_t$ )，可以跳过R的优化

上述三种学习方法分别对应：

①Instance-based TL：基于实例，需要选择一部分样本使其接近目标域，这种方法现在使用比较少，其具体可分为以下几种做法：

1.Instance selection：设计一个实例选择器，从源域中筛选出和目标域接近的数据，并改变其权重(增加分得好的样本的权重，减少分得不好的样本权重)。其由一个实例选择器(Instance Selector) $f$ 和一个性能评估器(Performance Evaluator) $g$ 组成，按照下图循环执行。总体思路接近强化学习。

2.Instance reweighting：使用这种方法的前提是 $D'_s \subseteq D_s$ ，且 $P_s(x) \neq P_t(x)$ ， $P(y|x)$ 相同。此时，代价函数将被改写为：

$\theta^*_t=argmax_\theta \int _x P_t(x) \sum_{y \in Y}P_t(y|x)logP(y|x;\theta)dx$ ，化简后可得

$\theta^*_t \approx argmax_\theta \frac{1}{N_s}\sum^{N_s}_{i=1}\frac{P_t(x_i^S)}{P_s(x_i^S)}logP(y_i^S|x_i^S;\theta)$

②Feature-based TL：基于特征，将迁移正则项R显式表示并使之最小化，一般为两个域之间的距离。可以根据源域和目标域的类型分为两类：同类特征空间(例如源域和目标域均为图片)，异类特征空间（例如源域和目标域一种是文字，一种是图片）

这种方法的前提是源域和目标域之间存在一些通用特征(common features)，我们需要做的是将源域和目标域变换到同一特征空间中并缩小其距离。可以分为两种做法：

1.显式距离(Explicit distance)： $R=Distance(D_s,D_t)$ ；空间距离，即使用一些数学工具来度量两个域之间的距离。常见的有以下几种：

①基于Kernel：MMD、KL散度、Cosine相似度

②基于几何：流式核(GFK)、协方差、漂移对齐、黎曼流形

其中使用最多的是MMD(最大矩阵差异)，详见第四章。

2.隐式距离(Implicit distance)： $R=Separability(D_s,D_t)$ ；可分性，在无法选择空间距离的情况下进行，一般使用对抗网络GAN来实现。

3.两者结合(explict+implicit dist)：例如MMD-AAE网络、DAAN网络。

③Parameter-based TL：基于参数，复用源域上训练好的模型。代表方法为预训练。

四、MMD

1.定义

MMD，即最大矩阵差异。是一个用来度量域之间差异的值，其可以定义为将x和y分别映射到P和Q两个数据分布上（ $x \sim P,y \sim Q$ ）， $f$ 为一个可以将x映射到希尔伯特空间 $H$ 的函数，MMD计算的是两个域映射后之间期望的最大差异，其数学公式可以写作：

$MMD(P,Q,F) = sup E_P [f(x)]-E_Q[f(y)]$

而实际计算时候往往进行有限的随机采样获取一些数据，再计算这些数据的均值差异，这些均值差异中最大的即为MMD，一般写作：

$MMD(P,Q,F)=sup E_P[\frac{1}{m}\sum_{i=1}^mf(x_i)-\frac{1}{n}\sum^n_{j=1}f(y_j)]$

基于统计学，当MMD的值非常接近0时，可以认为两个域之间的分布近似相等（即打成域对齐的目标）

2.分类

①Marginal dist

这种方法是用MMD衡量两个域之间分布的差异，原公式

$Distance(D_s,D_t)\approx MMD(P,Q,F) = sup E_P [f(x)]-E_Q[f(y)]$ 经过一定的计算可以写作： $tr(A^TXMX^TA)$ ，式中 $X=[X_s,X_t]\in R^{d\times(m+n)},A \in R^{(m+n)\times(n+m)}$ ,其核形式可以记作： $tr(KM)$ ，其中