写在前面:期刊:《水利学报》;中国水利局;月刊;中文核心期刊
作者信息:
1 摘要
-
模体是指——在一组序列中重复出现的相似片段模式。时间序列模体数据挖掘就是利用数据挖掘思想,在时间序列中找出重复出现的相似片段的过程。
-
算法流程:小波去噪 + 极值点分解 + 符号化得到离散数据,为模体挖掘Sequitur 算法提供输入。
-
处理的是水位数据
2 引用
时间序列挖掘,其研究内容一般包括 【时间序列相似性搜索】、【聚类】、【分类】、【序列模式挖掘】、【海量时间序列可视化】、【时间序列预测】等等。
2.1 模体挖掘的概念
模体是是生物学名词,它代表在一组序列中重复出现的相似片段的模式。
这组序列可以是蛋白质序列、RNA序列、DNA序列。

2.2 时间序列模体挖掘
2002年,Lin[2] 等人首次提出时间序列模体挖掘概念后,提出了很多的算法,但是这些算法都有一个共同的缺点:需要用户指定一个表示待发现模体长度的参数。这个长度在挖掘前用户很可能不知道或者非常难以确定。
2.3 前人工作
之前的模式识别缺点:需要用户指定一个表示待发现模体长度的参数。这个长度在挖掘前用户很可能不知道或者非常难以确定。
但是,文献[9]的出现,改变了这一局面。
- 该算法,不需要指定模体长度参数,而可以在只遍历一次数据的情况下,挖掘出不同长度的模体
本文提出的方法,就是在该基础上发展而来!所以先学习文献[9] 。
3 文献[9]模体挖掘算法分析
-
模体数据挖掘,作为模式发现和相似性搜索的交叉主题,最早在文献[2]中提出。
-
作者认为,在时间序列数据库中,查询事前已经知道的序列片段是一个值得重视的问题。
-
模体挖掘问题算法,往往难以解决模体变长的问题。
3.1 经典符号化方法
- SAX表示方法,在时间序列的数据压缩表示上,有着简单实用的特点。共有两个阶段。
在第一阶段,PAA过程阶段。用一段序列的平均值代表该序列;
在第二阶段,符号化阶段,即用不同的符号来表示前一阶段的平均值。
- PAA过程的本质是把较长的序列先分成间隔相等的若干区间,再在每一区间中用该区间的平均值来代表该区间中的所有值
- 因为是平均值,所以可以较好的反映出这个区间所有值的一个总体特征,这样PAA过程就在保留原始数据基本特征的基础上起到了降维的作用。
- 【但是,只用均值划分,会丢失很多中间有用的信息!】
符号化过程建立在PAA过程之上,其作用是根据一定规则,把上一步得到的均值期间,用字母符号表示,从而达到把连续数据符号化(离散化)的目的。