基于改进kNN算法的非侵入式负荷识别方法

「这是我参与11月更文挑战的第19天,活动详情查看:2021最后一次更文挑战

前言

文章最开始,解释一下文章中的几个名词:

  • NILM: 是指在电力入口处安装监测设备,通过监测该处的电压、电流等信号就可以分析得到负荷集群中单个负荷的种类和运行情况。之后对获取到的负荷信息进行识别,就可以得出当前所用的电器是什么?是否有故障等。
  • KNN: K近邻算法,基于欧式距离,如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。(解释来源: 百度百科)

文章信息

  • 题目: 基于改进kNN算法的非侵入式负荷识别方法
  • 作者: 延菲,张瑞祥,孙耀杰,陶余会,黄国平,孙伟涛
  • 期刊: 复旦学报(自然科学版). 2021,60(02)
  • 关键词: 负荷识别;kNN算法;二值V-I轨迹;综合相似度;
  • 英文关键词: load identification; KNN algovithm; binary V-I trajectory; comprehensive similarity

文章总结

KNN当数据集存在不平衡问题时,样本数量较多的类别会对样本数量较少的类别造成干扰,文章针对这一问题,通过为训练样本分配不同的权重,增加少数类样本在分类判决时的表决权。

文章选取的负荷特征为 V-I 轨迹和幅值,并提出了基于两种特征综合相似度的负荷类别判决方法。

对于 V-I 曲线,通过映射做归一化处理,将原始 V-I 数据转化为二值 V-I 轨迹。

评价指标采用宏平均值 F1 、精确率、召回率等

最终通过 PLAID 数据集和采集的实验室数据验证改进的 KNN 算法的有效性。

学习记录

KNN算法的缺点

kNN算法的缺点在于当数据集存在不平衡问题时,样本数量较多的多数类训练样本容易被选为K最近邻,对少数类的判决造成干扰.

KNN缺点解决方案

  1. 欠采样和过采样: 删除多数类样本和合成少数类样本,从而消除数据集不平衡问题(类似英文文献中提到的合成数据)

如何合成数据,根据什么样的规则合成数据?(有待查询)

  1. 对算法进行改进,为训练样本分配不同的权重,增加少数类样本在分类判决时的表决权.

此文章中使用的方法为第二种方法,权重分配方法也比较简单,使用 weight(i) = 1 / size(i) ,遵循少数类样本权重大、多数类样本权重小原则。

关于对 KNN 分配权重的疑问与展望

仅通过样本数量来赋权值真的好吗?如果换做更专业的分配权重方法是否会提高算法的精准度?

我查阅了几篇文章,目前在别的研究方向 KNN 一般使用 DS-WKNN 基于距离加权 或者 KDF-WKNN 基于核的差重建方法分配权重,亦或者给上述方法添加修正因子,进一步提高权重分配合理性。

我主要查了知网论文,目前 KNNNILM 的应用不多,改进也只有一篇,再次改进不知道是否可以成为研究方向,先记录一下。

综合判别法

综合判别法的思路并不难,大致分为下面四部:

  1. 计算待测样本与所有训练样本的 V-I 轨迹相似度和幅值相似度,分别记为 Sim1Sim2
    Sim1 = 1 / (1 + dist1)
    Sim2 = 1 / (1 + dist2)
    dist1和dist2分别为 2 个样本间 V-I 轨迹的距离和幅值的距离,均为欧氏距离.

  2. 按照 Sim1 的大小降序排列,取前 KSim1 最大的训练样本作为当前测试样本的K最近邻;

  3. 计算当前待测样本与所有 K 最近邻的综合相似度

    Sim(a, Tj) = Sim1(a, Tj) * weight(Tj) - Sim2(a, Tj)

  4. 统计待测样本与 K 个最近邻中各类的总综合相似度,取总综合相似度最大的类作为预测结果。

评价指标

使用宏平均 F1 值评估算法有效性。

宏平均 F1 值参考链接 : 宏平均值、精确率、召回率等

疑问

  1. 二值 V-I 轨迹如何做 KNN ,如何求其欧氏距离?
  2. 二值 V-I 轨迹是怎样实现归一化的?

猜你喜欢

转载自juejin.im/post/7032267907883073549
今日推荐