则属性 j 对应的相关统计量为： $\delta^{\mathrm{j}}=\sum_{\mathrm{i}}-\operatorname{diff}\left(\mathrm{x}_{\mathrm{i}}^{\mathrm{j}}, \mathrm{x}_{\mathrm{i}, \mathrm{nh}}^{\mathrm{j}}\right)^{2}+\operatorname{diff}\left(\mathrm{x}_{\mathrm{i}}^{\mathrm{j}}, \mathrm{x}_{\mathrm{i}, \mathrm{nm}}^{\mathrm{j}}\right)^{2}$

其中， $x_{i}^{j}$ 代表样本 $x_{i}$ 在属性 j 上的取值， $\operatorname{diff}\left(x_{a}^{j}, x_{b}^{j}\right)$ 的计算取决于属性 j 的类型：

A、对离散型属性：

$\operatorname{diff}\left(x_{a}^{j}, x_{b}^{j}\right)=\left\{\begin{array}{ll} 0, & x_{a}^{j}=x_{b}^{j} \\ 1, & \text { otherwise } \end{array}\right.$

B、对连续型属性：

$\operatorname{diff}\left(x_{a}^{j}, x_{b}^{j}\right)=\left|x_{a}^{j}-x_{b}^{j}\right|$

注： $x_{a}^{j}, x_{b}^{j}$ 已经规范化到 [0,1] 区间。

（3）变式——Relief-F

适用于多分类问题。

其余做法不变，相关统计量公式变为：

$\delta^{\mathrm{j}}=\sum_{\mathrm{i}}-\operatorname{diff}\left(\mathrm{x}_{\mathrm{i}}^{\mathrm{j}}, \mathrm{x}_{\mathrm{i}, \mathrm{nh}}^{\mathrm{j}}\right)^{2}+\sum_{\mathrm{l} \neq \mathrm{k}}\left(\mathrm{p}_{\mathrm{l}} \times \operatorname{diff}\left(\mathrm{x}_{\mathrm{i}}^{\mathrm{j}}, \mathrm{x}_{\mathrm{i}, \mathrm{l}, \mathrm{nm}}^{\mathrm{j}}\right)^{2}\right)$

其中样本 $x_{i}$ 属于第k类。

四、特征选择方法二 —— 包裹式选择

1、定义

直接把最终将要使用的学习器的性能作为特征子集的评价准则，即目的是为给定学习器选择最有利于其性能的量身定做的特征子集。

2、对比过滤式选择

直接针对给定学习器进行优化，从最终学习器性能来看，比过滤式更好；但多次训练学习器使得计算开销大得多。

3、典型方法 —— LVW

在拉斯维加斯方法框架下使用随机策略进行子集搜索，并以最终分类器的误差作为特征子集评价准则。

（1）算法步骤

（2）算法思路总结

A、随机产生一个特征子集A'，然后计算在A'下学习器L的误差；

B、如果（这个误差比之前得到的误差都要小）或者（误差差不多但是A‘中的特征数目更少），那么我们更新最终的特征子集为A’，并记下它的误差和特征数目；

以上过程（A，B）持续循环进行，直到达到迭代次数，最终输出的特征子集即为我们想要的结果。

五、特征选择方法三 —— 嵌入式选择

1、定义

嵌入式是一种将特征选择与学习器训练完全融合的特征选择方法，即将特征选择融入学习器的优化过程中。

2、L1正则化

（1）L1与L2正则化的对比与L1的特征选择作用说明

详见逻辑回归（Logistic Regression）_tt丫的博客-CSDN博客_逻辑回归

L1 和 L2 正则化都有助于降低过拟合风险，但L1还会带来一个额外的好处：它比L2更易于获得 “稀疏”解，即求得的w会有更少的非零分量（即抹除了一些特征属性）。

总的来说：

L1范数会趋向产生少量的特征，其他特征的权值都是0；

L2会选择更多的特征，这些特征的权值都会接近于0。

这样L1范数在特征选择上就十分有用，而L2范数则具备较强的控制过拟合能力。

（2）L1正则化问题的求解方法——近端梯度下降（PGD）

补充：利普希茨连续条件（L-Lipschitz条件）

L对于在实数集的子集的函数 $f: D \subseteq \mathbb{R} \rightarrow \mathbb{R}$ ，若存在常数L，使得：
$|f(a)-f(b)| \leq L|a-b| \quad \forall a, b \in D$ ，则称 f 符合利普希茨条件，对于 f 最小的常数L称为 f 的利普希茨常数。

简单说来就是：存在一个实数L，使得对于函数 f(x)上的任意两点的连线的斜率的绝对值不大于L，最小的L称为该函数的Lipschitz常数。

直观上，Lipschitz连续函数限制了函数改变的速度。

待补，公式没推懂囧

六、稀疏表示与字典学习

1、稀疏性

（1）特征稀疏

前面所考虑的都是特征具有“稀疏性”，即矩阵中的许多列与当前学习任务无关。特征选择去除这些无关列，使学习的难度下降，可解释性提高。

（2）样本稀疏表达

样本矩阵D中存在许多0元素（每行对应于一个样本，每列对应于一个特征），但不是整行整列的出现。

样本拥有这样的稀疏表达形式时，使大多数问题变得线性可分（我的理解是：他们的分布比较松散，没有那么复杂集中，可以用一刀切的方法把他们分开，即线性可分），并且利于存储（稀疏矩阵有很多高效存储方法）。

2、数据集的稀疏表示——字典学习（稀疏编码）

（1）目的

将普通非稀疏数据转为“稀疏表示”形式（对应上面的（2））—— 恰当稀疏。

（2）定义

即为普通稠密表达的样本找到合适的字典，将样本转化为合适的稀疏表示形式（稀疏编码），从而简化学习任务，降低模型复杂度。

（3）原理步骤

七、压缩感知

关注的是如何利用信号本身所具有的稀疏性，从部分观测样本中恢复原信号，通常压缩感知分为感知测量（关注如何对原始信号进行处理以获得稀疏样本表示）和重构恢复（关注的是如何基于稀疏性从少量观测中恢复原信号，通常压缩感知指的是这部分）两个阶段。

特征选择与稀疏学习详解

一、特征选择的总体介绍

1、特征

（1）相关特征

（2）无关特征

（3）冗余特征

2、特征选择的定义与原因

（1）定义

（2）进行特征选择的原因

3、如何选取一个包含所有重要信息的特征子集（如何进行特征选择）

4、常见的特征选择方法

二、子集搜索与评价

1、子集搜索

（1）前向搜索

（2）后向搜索

（3）双向搜索

（4）优缺点

2、子集评价

三、特征选择方法一 —— 过滤式选择

1、定义

2、典型方法——Relief

（1）具体做法

（2）相关统计量

（3）变式——Relief-F

四、特征选择方法二 —— 包裹式选择

1、定义

2、对比过滤式选择

3、典型方法 —— LVW

（1）算法步骤

（2）算法思路总结

五、特征选择方法三 —— 嵌入式选择

1、定义

2、L1正则化

（1）L1与L2正则化的对比与L1的特征选择作用说明

（2）L1正则化问题的求解方法——近端梯度下降（PGD）

六、稀疏表示与字典学习

1、稀疏性

（1）特征稀疏

（2）样本稀疏表达

2、数据集的稀疏表示——字典学习（稀疏编码）

（1）目的

（2）定义

（3）原理步骤

七、压缩感知

猜你喜欢