文章目录
写在前面:期刊:《软件天地》;不知道这是什么期刊,2011年发表的。
1 摘要
- 提出了一种基于DTW的符号化时间序列聚类算法,对降维后得到的不等长符号时间序列进行聚类。
步骤如下:
第一,先对时间序列进行降维处理,提取时间序列的关键点,并对其进行符号化;
第二,利用 DTW
方法进行相似度计算;
第三,利用Normal
矩阵和FCM
方法进行聚类分析。
2 引言
- 时间序列的相似性,是衡量两个时间序列相似程度的一个重要指标,它是时间序列聚类、分类、异常发现等诸多数据挖掘问题的基础,也是研究时间序列挖掘的核心问题之一。
- 欧式距离(Euclidean)和动态时间弯曲距离(Dynamic Time Wraping)是计算时间序列相似性中经常被使用的度量方式。
- 欧式距离对时间轴上的轻微变化非常敏感,而且要求时间序列是等长的,在处理一般问题时,欧式距离并没有很好的表现。而动态弯曲距离(DTW)则能很好的消除欧式距离的缺陷。
2.1 类似的工作 SAX
SAX 是一种运用符号化方法对时间序列进行表示、 维度约简及相似性度量的方法。
但SAX方法采用PAA算法将时,是将时间序列平均划分,因此会丢失掉一部分的语义信息;
而如果利用均分点+关键点,同时对序列进行分段,则既考虑了序列本身概率分布变化,又能兼顾到形态的变化。[1]
[1] 《一种基于关键点的SAX改进算法》 闫秋艳
2.2 本文成果
本文提出一种基于DTW的符号化时间序列聚类算
法。
①在提取关键点之后,再进行符号化时间序列,以达到降维的目的。
降维之后得到的符号序列为不等长序列,
采用动态时间弯曲距离(DTW)方法进行计算,鲁棒性
好。然后通过DTW得到的距离矩阵构建复杂网络,并寻
找其社团结构,实现了符号时间序列聚类。本文用DTW
方法进行相似性度量比KPDIST[4]在聚类结果的准确率
上有较好大提高