一、特征选择
1、 对一个学习任务来说,给定属性集,其中有的属性是很关键的,很有用的。有一些属性是没什么用的。属性成为“特征”,对学习任务有用的成为“相关特征”,没什么用的属性成为“无关特征”。
“特征选择”:从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。——是一个很重要的“数据预处理”。
2、 为什么要进行特征选择:(1)属性过多,需要从中选择出重要的特征。
(2)去除不相关的特征,降低学习任务的难度。
3、冗余特征:这类特征是指它所包含的信息可以从其他特征中推演出来,很多时候是没用的。例如:对于立方体来说,“底面积”这个特征可以从“底面长”和“底面宽”推演出来,“底面积”就是一个冗余特征。但是如果冗余特征恰好是完成任务所需的“中间概念”,则冗余特征是有用的。
4、特征选择包含:从一个初始的特征集合中选择出包含了所有重要信息的特征子集分为两个环节:
(1)"子集搜素":在给定的特征集合{d1,d2,d3……dn}中选择出候选集,分为两个:
“前向搜素”:先将每个特征{d1},{d2}……{dn}看做一个候选子集,进行评价,选择出最优的,再在下一轮中加入一个特征后成包含两个特征的子集,在这n-1个中选择最优的,……如果在第K+1轮中,最优的候选集步入前一轮,则停止生成候选集,并在上一轮选定的K特征集合作为特征选择的后果。
“后向搜素”:先将整个特征{d1,d2……dn}看做一个候选子集,进行评价,每次尝试去掉一个无关的特征。
(2)“子集评价”:属性子集的信息增益。
信息增益越大,意味着特征子集包含的有用信息越多。
5、常见的特征选择方法可以分为三类:过滤式,包裹式,嵌入式。
(1) 过滤式选择:不需要考虑后续的学习器,直接进行特征选择
Relief是一种著名的过滤式特征选择方法。需要制定一个相关统计量来度量,即指定一个阈值T,选择比T大的相关统计分量所对应的特征即可。
(2)包裹式选择:直接把最终将要使用的学习器的性能作为特征子集的评价准则,这是与过滤法特征选择方法最大的区别。