2.8 自相关

正如相关系数可以衡量两个变量之间的线性相关关系一样,自相关系数可以测量时间序列 滞后值 之间的线性关系。

以下几个不同的自相关系数,对应于滞后图中的不同情况。例如,\(r_{1}\) 衡量 \(y_{t}\)\(y_{t-1}\) 之间的关系;\(r_{2}\) 衡量 \(y_{t}\)\(y_{t-2}\) 之间的关系。

\(r_{k}\) 定义如下:

\[ r_{k} = \frac{\sum\limits_{t=k+1}^T (y_{t}-\bar{y})(y_{t-k}-\bar{y})} {\sum\limits_{t=1}^T (y_{t}-\bar{y})^2}, \] 其中,\(T\) 是时间序列的长度。

澳大利亚啤酒产量数据的前九个自相关系数如下表所示。

\(r_1\) \(r_2\) \(r_3\) \(r_4\) \(r_5\) \(r_6\) \(r_7\) \(r_8\) \(r_9\)
-0.102 -0.657 -0.060 0.869 -0.089 -0.635 -0.054 0.832 -0.108

各值分别对应于图 2.13 中的九个散点图。通过绘制自相关系数图可以描绘 自相关函数 或者是ACF。因此也被称为相关图。

ggAcf(beer2) +
  ggtitle('') 
每季度啤酒产量的自相关函数

图 2.14: 每季度啤酒产量的自相关函数

在该图中:

  • \(r_{4}\)值最大。这是由于数据的季节性形态:顶峰往往出现在第四季度,谷底往往出现在第二季度。
  • \(r_{2}\)值最小。这是由于谷底往往在高峰之后的两个季度出现。
  • 蓝色虚线之内的区域自相关性可近似看做0。这将会在下节详细阐述。

ACF 图中的趋势性和季节性

当数据具有趋势性时,短期滞后的自相关值较大,因为观测点附近的值波动不会很大。时间序列的ACF一般是正值,随着滞后阶数的增加而缓慢下降。

当数据具有季节性时,自相关值在滞后阶数与季节周期相同时(或者在季节周期的倍数)较大。

当数据同时具有趋势和季节性时,我们会观察到组合效应。如图 2.15 是澳大利亚用电量,该序列同时具有趋势和季节性。它的ACF值如图 2.16 所示。

aelec <- window(elec, start=1980)
autoplot(aelec) + xlab("年份") + ylab("百万千瓦") +
  theme(text = element_text(family = "STHeiti")) +
  theme(plot.title = element_text(hjust = 0.5))
1980-1995年间澳大利亚月度用电量

图 2.15: 1980-1995年间澳大利亚月度用电量

ggAcf(aelec, lag=48) +
  ggtitle('') 
澳大利亚月度用电量的ACF值

图 2.16: 澳大利亚月度用电量的ACF值

自相关系数值随着滞后阶数增加而缓慢降低,是因为原时间序列中具有趋势变化,而图中的“圆齿状”形状是来源于原时间序列中的季节性变化。