高维小样本数据的在线流特征选择

发布于24年国际学习和控制论杂志 文献地址

简要总结

《Online streaming feature selection for high-dimensional small-sample data》研究了高维小样本数据(HDSS)在类别不平衡情况下的在线流式特征选择问题,提出了一种名为OSFSHS的算法。该算法基于类别密度自适应邻域关系假设,利用在线显著性分析、相关性分析和冗余更新技术,动态选择特征子集。通过12个数据集的实验验证,OSFSHS在分类准确率、F-score和G-mean指标上优于六种主流算法,尤其在少数类预测中表现突出。其创新点在于自适应邻域定义和在线特征评估框架,为实时数据处理提供了新思路。

以下是详细说明:


1. 研究背景

高维小样本数据(HDSS)是指特征维度远大于样本数量的数据类型,常见于图像识别、文本分类和医疗诊断等领域。这种数据面临以下挑战:

  • 高维性与过拟合:特征维度高导致维度灾难,模型易过拟合。
  • 小样本性:样本量不足,难以充分训练模型。
  • 类别不平衡:多数类样本占主导,少数类样本稀少,模型往往偏向多数类,而少数类(如欺诈检测中的异常样本)在应用中更关键。
  • 在线流式场景:特征逐个或成组到达,需动态选择最优特征子集,而非传统静态选择。

传统特征选择方法假设特征空间固定且完整,忽视类别不平衡,导致少数类预测性能不足。现有的类别不平衡处理方法(如过采样、欠采样)改变数据分布,可能引入噪声或丢失信息;而直接建模方法(设计特定算法直接处理不平衡数据)对难以适应特征流式到达的动态环境。因此,亟需一种兼顾HDSS特性、类别不平衡和在线需求的特征选择方法。


2. 基于的假设

OSFSHS算法基于以下核心假设:

  • 类别密度决定邻域关系:样本的邻域关系应由其所在类别的分布密度决定,而非统一固定距离或邻居数量。这种假设认为类内密度信息能更准确反映不平衡数据的结构。
  • 特征重要性动态变化:新到达的特征可能比已有特征更重要,特征子集需随时间动态调整。
  • 原始分布保持:不改变数据原始分布,仅通过类内信息评估特征,避免采样方法带来的偏差。

这些假设旨在解决传统方法对不平衡数据分布的忽视,同时适应在线流式场景的实时性需求。


3. 使用的技术路线

OSFSHS的技术路线分为三个核心模块,构成完整的在线流式特征选择框架:

  1. 在线显著性分析
    • 评估新到达特征的邻域一致性,若高于已有特征子集,则替换或加入。
  2. 在线相关性分析
    • 检查新特征与已有特征的联合依赖性,若联合效果更好,则保留新特征。
  3. 在线冗余更新
    • 移除特征子集中冗余特征,保证子集高效性。

技术路线依托自适应邻域关系和邻域一致性度量,通过动态调整实现特征选择的实时性和准确性。


4. 实现的技术细节

OSFSHS的具体实现包括以下步骤:

(1) 自适应邻域关系
  • 定义:基于类别密度为每个样本动态分配邻居数量,而非固定k值。
  • 过程:利用目标样本所在类别的分布信息,计算类内密度,确定邻域范围。
  • 优势:避免传统k近邻方法对稀疏或密集区域的统一处理,适应不平衡数据。
(2) 邻域一致性度量
  • 定义:衡量特征子集与标签空间的一致性,作为特征重要性标准。
  • 计算:基于新邻域关系,评估特征如何区分不同类别。
  • 应用:用于后续的显著性、相关性和冗余分析。
(3) 在线流式特征选择
  • 阶段1:在线显著性分析
    • 输入新特征,计算其邻域一致性。
    • 若一致性高于已有特征子集,则替换低效特征。
  • 阶段2:在线相关性分析
    • 计算新特征与已有特征子集的联合依赖性。
    • 若联合依赖性优于单一特征,则保留新特征。
  • 阶段3:在线冗余更新
    • 检查已有特征子集,若某特征与新特征联合依赖性低于新特征单独依赖性,则移除冗余特征。
(4) 算法流程
  • 输入:流式到达的特征、样本数据、标签。
  • 输出:动态更新的特征子集。
  • 特点:实时性强,计算复杂度低,适合在线场景。

5. 详细的数学公式表达

以下是OSFSHS的关键数学表达(因原文未提供具体公式,此处根据描述推导典型形式):

(1) 邻域一致性度量

设特征子集 S S S,样本 x i x_i xi 的类别标签为 y i y_i yi,邻域为 N ( x i ) N(x_i) N(xi),一致性定义为:

C ( S ) = 1 n ∑ i = 1 n I ( y i = majority ( N ( x i , S ) ) ) C(S) = \frac{1}{n} \sum_{i=1}^n \mathbb{I}(y_i = \text{majority}(N(x_i, S))) C(S)=n1i=1nI(yi=majority(N(xi,S)))

其中:

  • n n n 为样本数;
  • I \mathbb{I} I 为指示函数,若 y i y_i yi 与邻域多数类别一致则为1,否则为0;
  • N ( x i , S ) N(x_i, S) N(xi,S) 是基于特征子集 S S S 计算的邻域。
(2) 在线显著性分析

新特征 f new f_{\text{new}} fnew 的显著性:

Sig ( f new ) = C ( S ∪ { f new } ) − C ( S ) \text{Sig}(f_{\text{new}}) = C(S \cup \{f_{\text{new}}\}) - C(S) Sig(fnew)=C(S{ fnew})C(S)

Sig ( f new ) > θ \text{Sig}(f_{\text{new}}) > \theta Sig(fnew)>θ(阈值),则 f new f_{\text{new}} fnew 加入 S S S

(3) 联合依赖性

特征 f new f_{\text{new}} fnew 与子集 S S S 的联合依赖性可用互信息表示:

I ( f new , S ; Y ) = H ( Y ) − H ( Y ∣ f new , S ) I(f_{\text{new}}, S; Y) = H(Y) - H(Y | f_{\text{new}}, S) I(fnew,S;Y)=H(Y)H(Yfnew,S)

其中:

  • H ( Y ) H(Y) H(Y) 为标签熵;
  • H ( Y ∣ f new , S ) H(Y | f_{\text{new}}, S) H(Yfnew,S) 为条件熵。
(4) 冗余判断

对于已有特征 f j ∈ S f_j \in S fjS,若:

I ( f new , f j ; Y ) < I ( f new ; Y ) I(f_{\text{new}}, f_j; Y) < I(f_{\text{new}}; Y) I(fnew,fj;Y)<I(fnew;Y)

f j f_j fj 被视为冗余并移除。

这些公式体现了OSFSHS的动态评估过程,具体实现中可能涉及参数调整和优化。


6. 提出的创新点

OSFSHS的创新点包括:

  1. 基于类别密度的邻域关系
    • 通过类内密度动态定义邻域,克服传统方法的固定假设,适应不平衡数据。
  2. 在线特征评估框架
    • 包含显著性分析、相关性分析和冗余更新,形成完整在线选择体系。
  3. 保持原始分布
    • 不依赖采样,仅利用类内信息选择特征,避免数据分布改变。

这些创新提升了算法在HDSS和类别不平衡场景中的适用性。


7. 实验分析

(1) 实验设置
  • 数据集:12个公开数据集(10个不平衡,2个常规),特征维度2308至12600,类别比例差异大(如GENE9为32.83)。
  • 评估指标:分类准确率、F-score(综合精确率和召回率)、G-mean(平衡正负类效果)。
  • 对比算法:OSFS、FOSFS、SAOLA、KOFSD、OFSD、OFSI。
(2) 结果分析
  • 性能表现
    • OSFSHS在多数数据集上优于对比算法,尤其在F-score和G-mean上。例如,BREAST数据集F-score达0.9836(KNN)。
  • 少数类预测
    • 在不平衡数据集上,OSFSHS显著提升少数类性能,体现了对类别不平衡的处理能力。
  • 统计检验
    • Friedman和Nemenyi检验显示OSFSHS性能差异显著,平均排名第一。
  • 稳定性
    • 雷达图显示OSFSHS总体稳定,但在GENE10等极端稀疏数据集上略有波动。
(3) 结论

实验证明OSFSHS在HDSS在线流式特征选择中表现优异,尤其适合类别不平衡场景。

算法流程图

在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述


8. 总体评价

OSFSHS通过自适应邻域关系和在线评估框架,解决了HDSS数据在类别不平衡下的特征选择难题。其技术路线清晰,实验结果令人信服,创新点突出,为实时数据处理提供了理论和实践价值。未来可扩展至群体特征选择和多标签学习,进一步提升应用前景。