转发:时间序列模型的两个关键点

 

 

转发一个文章:补充时间序列模型相关知识点。

链接:http://www.itongji.cn/cms/article/articledetails?articleid=2341

 

本文简介 

 

不知道您是否和我一样,在第一次看到Arima这个词的时候的第一反应是:Arima是什么鬼?一定是Armani写错了。好吧,言归正传,本文旨在帮助初学者或者想要学习却又被其看上去很恐怖的数学公式吓退的朋友理解Arima模型中的一些非常重要的概念和关键点,文中尽量不去罗列复杂的理论和公式,至于更多的细节以及代码,相信在各种书籍和论坛中已有详尽的描述。


从这里开始

 

Arima全称整合自回归移动平均模型(Integrated Autoregressive Moving Average Model)。它对很多时间序列能进行很好的拟合和预测,而时间序列的平稳性是建立Arima模型的前提。那么究竟什么是平稳的时间序列呢?严格来说,数学上的平稳又分为严平稳和宽平稳,严平稳指的是序列的统计特征不随时间的平移而变化,而宽平稳指的是其一、二阶中心矩不随时间的平移而变化。什么?你不知道一、二阶中心矩?其实就是期望和方差(原谅我装X,一种不自信的表现)。而判断平稳性的方法一般有:看图法、单位根检验法、自相关函数检验法、游程检验法等。看图法简单易懂,观察线图是否存在周期性和趋势性,如果没有明显的周期性和趋势性,则认为其是平稳序列。其他的方法嘛,不说也罢(我不会告诉你我也不懂)。

 

如果翻开一本专门介绍时间序列的书籍,很容易发现,里面充满了密密麻麻的公式和推导。等我们完全理解了Arima模型的来龙去脉的时候,恐怕我们将会成为了一个统计学专家了。既然如此,那么我们该如何理解Arima模型呢?个人认为,序列的平稳化和阶数识别是其两个关键点。

 

 

平稳化

 

然而,理想很丰满,现实却很骨感。我们在实际工作中遇到的时间序列往往都是非平稳的。对于非平稳序列,通常利用对数变换和差分运算将其平化。对数变换用来将指数趋势转化为线性趋势,而差分运算则可以用来消除线性趋势和周期性,其强大的确定性信息提取能力可以将很多非平稳序列变为平稳序列。下图是一个非平稳的序列,它记录了两年内每天的业务数据量,该序列存在约7天周期性,但没有明显的趋势性。

 

QQ截图20160602103249.png

 

我们对序列作1阶7步差分,同时做一个的零均值化处理,得到下图:

 

QQ截图20160602103256.png

 

通过简单的图形观察,差分后时序图显示出序列在0附近随机地波动,这说明该序列很可能是一个平稳序列。接下来,我们做进一步的检验以证实该序列的平稳性。仅从上图对时间序列的平稳性判断的准确性较差,且主观性太强,一般还可以考虑使用单位根检验的方法对时序的平稳性进行检验。

 

QQ截图20160602103302.png

 

在显著性水平为0.05时,P值都是显著的,因此我们可以拒绝该时间序列是非平稳序列的原假设,说明该序列是平稳的。

 

 

阶数识别

 

Arima建模的本质是阶数的识别。当然阶数的识别并不能一蹴而就,这就需要我们通过判断自相关和偏自相关图,并进行不断的迭代,同时结合AIC或者BIC准则才能最终确定较好的模型参数。

 

QQ截图20160602103310.png

 

通过绘制差分后的自相关图(ACF)和偏自相关图(PACF)可以看到,两图显著的表现出不截尾,即自相关图中滞后1、2、3、6、7、8、9期超出了置信区间,偏自相关图中滞后4、5、6、7、14、15、21期也超出了置信区间。这说明在检验的显著性水平为0.05的条件下,序列中还蕴含着不容忽视的相关信息可供提取。此外,由BIC准则给出的最优模型推荐,BIC(1,9)最小,对应的是ARIMA(1,7,9)。

 

QQ截图20160602103316.png

由于时间序列经常受节假日和非工作日的影响,所以将其生成一个哑变量作为解释变量。根据推荐的阶数,结合上面的自相关图和偏自相关图,反复的尝试和删减不显著的参数。

 

 

QQ截图20160602103323.png

经过反复的迭代和尝试,残差诊断图中自相关图和偏自相关图都是拖尾的,滞后6期通过白噪声检验,说明残差序列是白噪声,没有可提取的必影响因素,模型完成。红线为序列拟合值,黑线为序列观察值,蓝色区域为95%置信区间。可以看出,模型拟合效果较好。

 

QQ截图20160602103329.png

END

来源:朝阳35处

猜你喜欢

转载自vinking934296.iteye.com/blog/2305001