在稀疏编码中,字典的学习至关重要。监督的字典学习方法大致可以分为3类。第一类为学习出针对所有信号的一个统一字典(universal dictionary)。该方法将字典学习与分类器训练完美的糅合为一个目标函数优化问题,旨在通过学习出的字典将信号的高维表示变得更加可分,可表示为
其中
其中
1. SDL
文献 Supervised dictionary learning 发表于NIPS2009,属于第一类。文中的分类器
值得注意的是
从上可知,比较该样本在不同类别下的损失函数值而预测样本。所以如果二者差值更大,那么就更加可分,继续优化得到:
可以发现此式更难求解。可以将上式推广到多类别:a.直接法,则损失函数采用softmax discriminative cost function,如下式
针对每一类别学习一个模型
- 固定
D ,进行监督稀疏编码α - 固定
α ,采用投影梯度下降法(projected gradient descent)更新字典D 和模型θ
2. D-KSVD
该文Discriminative k-svd for dictionary learning in face recognition 发表在CVPR2010。方法算是对上述论文模型的简化,也属于第一类。损失函数没有采用logistic loss function,而是采用了更为简单类似于平方误差的损失函数,即
其中
该论文的有一贡献为作者使用了推广的K-SVD算法快速求解提出的模型。为了套用K-SVD算法,将模型变为下式
注意,作者抛弃了正则项
- Train
D with K-SVD - Train
W with equation:W=(ATA+βI)−1AYT
值得注意的是
3. LC-KSVD
该文Learning a discriminative dictionary for sparse coding via label consistent k-svd 发表于CVPR2011,提出的方法实质是上文的一个改进,加入一个样本的label constant强约束,学习出一个辨别能力强的字典。模型可表示如下:
即加入了
其中训练过程、算法,测试过程都与上文相似。注意上述提到的方法都是基于如下
4. FDDL
该文Fisher discrimination dictionary learning for sparse representation 于ICCV2011,提出的模型就是典型的第二种方法,辨别能量(discriminative power) 函数
其中
注意此类方法优化的目的是使得第
可直观的解释为如下图所示:
通过图(c),加入的两项使得
训练过程如下
- Updating
A by fixingD . whenD is fixed, the model is reduced to a sparse coding problem. The Iterative Projection Method (IPM) can be employed to the sparse coding problem class by class. - Updating
D (atom by atom, class by class) by fixingA .
测试:当训练样本相对较少时,测试样本则在整个字典下进行稀疏编码,得到的稀疏表示在各自类别的子字典下进行重构,以重构误差和稀疏表示到
5. DL with structured incoherence
该方法Classi cation and clustering via dictionary learning with structured incoherence and shared features 于CVPR2010,属于第二类方法,辨别能量(discriminative power) 函数
注意此模型的重构误差项为在各自子字典下进行重构。测试时与传统方法一样,通过重构误差预测样本类别。
6. 基于监督的重构能量约束及非相干子字典学习
文献基于监督非相干字典学习的极化 SAR 图像舰船目标检测 于自动化学报2015,提出了一种结构化非相干字典学习算法,并成功的运用于极化SAR图像舰船目标检测。本文提出的模型是在第4与5节提出的模型上的一个融合,其将FDDL中的基于fisher discriminative creteria的辨别能量函数
- 良好的稀疏表示特性,即能获得小的重构误差
- 训练样本稀疏表示系数集中在其所属类别的子字典下,且在其它类别的子字典下重构能量小
- 子字典间具有较小的互相关性
这是一个典型的将目标检测问题转化为分类问题。本文采取的样本生成过程是在每一幅SR图像中在目标区域内运用阈值检测得到分辨单元作为目标训练样本,类别标记为2;在目标区域外的特定区域中选取分辨单元作为海杂波训练样本,类别标记为1。初始子字典的选取为在各自的样本集中随机选取一定数目样本组合成结构化初始字典。
由上可知,在学习阶段的稀疏重构是监督的,但是对于测试样本却并不知道该样本的类别。为了保持与训练阶段的一致性,作者在分类检测时做出了假设,即假设测试样本为第一类样本。另外,作者还定义了3个预测指标,a.
7. 基于局部图拉普拉斯约束的低秩表示聚类}
该文基于局部图拉普拉斯约束的鲁棒低秩表示聚类方法 于自动化学报2015,针对传统的稀疏表示和低秩表示分类问题的缺陷,提出了基于局部图拉普拉斯约束的鲁棒低秩表示聚类模型。我们都知道,稀疏表示聚类方法针对每一个图像数据进行独立的稀疏编码,虽然获得了数据的稀疏性但忽略了图像子空间之间的结构属性;低秩表示聚类方法通过采用全局表示矩阵的秩作为约束,有效的利用了图像数据之间的相关性,虽然满足了表示矩阵的良好分块对角性质(即来自同一子空间的图像的非零表示系数构成一个小块),但是其只关注了全局空间秩约束却忽略了图像数据据不相关性约束使得到的表示矩阵缺乏稀疏性。
抛开本文华丽的外衣,其提出的模型使得越接近的图像数据得出的低秩表示越接近。模型表示为
其中
8. Inter-related Visual Dictionary Learning
本文Learning inter-related visual dictionary for object recognition 于CVPR2012,也是典型的第二类方法,提出的模型有效地解决类别之间相似而带来的识别挑战。该模型有效利用类别之间的相似性联合训练一个commonly shared dictionary 和 multiple category-specific dictionaries,为了增强字典的辨别性,同样引入了fisher判别准则。每一个类别子字典
注意这里的
- Updating
A (class by class) by fixingD . In this work, two-step iterative shrinkage/thresholding(TwIST) algorithm is employed to updateAi . - Updating
D by fixingA . First update the category-specific dictionaries class by class and then update the shared dictionaryD0 . Both the problem are least squares problems with quadratic constraints which can be efficiently solved using Lagrange dual.
在分类预测时,为了充分利用判别子字典下的辨别稀疏表示,本文提出的方法与之前的方法都不同。当得到各类别训练数据的稀疏表示时采用one-vs-all的策略训练出C个SVM分类器。预测新样本时,得到其在各个子字典下的稀疏表示,带入相应SVM中进行打分,最后分数最高的类别即为预测的样本类别。
9. Max-Margin Dictionary Learning (MMDL)
该文Max-margin dictionary learning for multiclass image categorization 于ECCV2010,首次提出将BoVW模型与分类器相结合,同时优化字典与分类器参数。该方法属于典型的第一类方法,与前述方法的区别在于信号的高维表示与损失函数,该文没有采用稀疏表示模型而是采用BoVW模型,且损失函数采用hinge-loss function。
这里假设图像训练数据集为
传统的BoVW模型的视觉字典一般采用对所有训练数据集的局部描述子使用k-means非监督学习得到。而k-means方法以欧式距离最为度量,当两类数据非常相似时,则k-means方法则把这两类数据聚为一类。针对上述方法的缺陷,该文提出了最大化类间距的字典学习方法,即将分类器的学习糅合在一起。那么构造的优化目标函数为
优化上述目标函数旨在学习出字典使得最小化hinge-loss,同时学习出一个线性的SVM分类器。该模型的求解过程大致分为两步
- Updating
W by fixingD . whenD is fixed, the computation ofW becomes a standard linear SVM problem. - Updating
D (atom by atom) by fixingW . Due to the presence of both the non-linearity ofψ(In,D) and the non-differentiability of the hinge loss, subgradient method is employed with the non-differentiable objective function.ℏn=max(0,1−ynWTψ(In,D)) , whenynWTψ(In,D)<1 ,ℏn is differentiable:
∂ℏn∂dk=−2ynwkNn∑i=1Nnγ(xni−dk)(ϕni[k]−(ϕni[k])2);
when whenynWTψ(In,D)>1 ,∇ℏn=0 . So,dk=dk−λ∑{n|ynWTψ(In,D)<1}∂ℏn∂dk
These images that lie in the margin or are misclassified byW are named as effective images because only these images are involved in the dictionary update equation.
实验验证该方法比BoVW+SVM的分类准确率提高至少5%。
10. VLAD with Supervised Dictionary Learning
该文 Boosting vlad with supervised dictionary learning and high-order statistics 于ECCV2014,在标准的VLAD基础上引入了高阶(high-order)特征,并结合分类器一起构造目标函数学习出辨别的字典与分类模型。H-VLAD不但考虑了平均值信息,还引入了标准差,偏度等高阶信息。如下
其中
因此本文引入了高阶特征,标准差和偏度。
其中涉及的平方运算为向量中每个元素的平方,
其中涉及的平方运算为向量中每个元素的平方,
无论是BoVW还是VLAD对字典都非常敏感,学习一个辨别的字典增强信号的区分能力。损失函数采用logistic loss function,则目标函数变为
其中