8.3 自回归模型

在多元线性回归模型中,我们通过对多个预测变量(predictor)的线性组合预测了目标变量(variable of interest)。在自回归模型中,我们则是基于目标变量历史数据的组合对目标变量进行预测。自回归一词中的字即表明其是对变量自身进行的回归。

因此,一个 \(p\) 阶的自回归模型可以表示如下: \[ y_{t} = c + \phi_{1}y_{t-1} + \phi_{2}y_{t-2} + \dots + \phi_{p}y_{t-p} + \varepsilon_{t}, \] 这里的 \(\varepsilon_t\) 是白噪声。这就相当于将预测变量替换为目标变量的历史值的多元回归。我们将这个模型称为AR(\(p\)) 模型——-\(p\)阶自回归模型。

自回归模型在处理拥有复杂特征的时间序列上十分灵活。图8.5显示的两个时间序列分别来自一个 AR(1) 模型和一个 AR(2) 模型。在自回归模型中,系数 \(\phi_1,\dots,\phi_p\) 的变化将使得时间序列拥有不同的特征,而误差项 \(\varepsilon_t\) 的方差则只会改变序列的数值范围,而不会改变它的特征。

两个不同系数的自回归模型示例。 左图是一个AR(1)模型:$y_t = 18 -0.8y_{t-1} + \varepsilon_t$。 右图是一个AR(2)模型:$y_t = 8 + 1.3y_{t-1}-0.7y_{t-2}+\varepsilon_t$。 这两个模型中的 $\varepsilon_t$ 都服从均值为0方差为1的正态分布。

图 8.5: 两个不同系数的自回归模型示例。 左图是一个AR(1)模型:\(y_t = 18 -0.8y_{t-1} + \varepsilon_t\)。 右图是一个AR(2)模型:\(y_t = 8 + 1.3y_{t-1}-0.7y_{t-2}+\varepsilon_t\)。 这两个模型中的 \(\varepsilon_t\) 都服从均值为0方差为1的正态分布。

对于一个AR(1)模型而言:

  • \(\phi_1=0\) 时,\(y_t\) 相当于白噪声;
  • \(\phi_1=1\) 并且 \(c=0\) 时,\(y_t\) 相当于随机游走模型;
  • \(\phi_1=1\) 并且 \(c\ne0\) 时,\(y_t\) 相当于带漂移的随机游走模型;
  • \(\phi_1<0\) 时,\(y_t\) 倾向于在正负值之间上下浮动。

我们通常将自回归模型的应用限制在平稳数据上,并且对回归系数也施加一些约束条件:

  • 对于AR(1)模型: \(-1 < \phi_1 < 1\)
  • 对于AR(2)模型: \(-1 < \phi_2 < 1\)\(\phi_1+\phi_2 < 1\)\(\phi_2-\phi_1 < 1\)

\(p\ge3\) 时,约束条件会更为复杂一些。R在估计自回归模型时可以解决这个问题。