2.8 자기상관

상관값이 두 변수 사이의 선형 관계의 크기를 측정하는 것처럼, 자기상관(autocorrelation)은 시계열의 시차 값(lagged values) 사이의 선형 관계를 측정합니다.

시차 그래프(lag plot)에서 각 패널과 관련된 몇 가지 자기상관 계수가 있습니다. 예를 들면, \(r_{1}\)\(y_{t}\)\(y_{t-1}\) 사이의 관계를 측정하고, \(r_{2}\)\(y_{t}\)\(y_{t-2}\) 사이의 관계를 측정하는 식입니다.

\(r_{k}\) 값은 다음과 같이 쓸 수 있습니다. \[ r_{k} = \frac{\sum\limits_{t=k+1}^T (y_{t}-\bar{y})(y_{t-k}-\bar{y})} {\sum\limits_{t=1}^T (y_{t}-\bar{y})^2}, \] 여기에서 \(T\)는 시계열의 길이입니다.

다음의 표는 맥주 생산량 데이터에 대한 처음 9개의 자기상관(autocorrelation) 계수를 보여줍니다.

\(r_1\) \(r_2\) \(r_3\) \(r_4\) \(r_5\) \(r_6\) \(r_7\) \(r_8\) \(r_9\)
-0.102 -0.657 -0.060 0.869 -0.089 -0.635 -0.054 0.832 -0.108

이 값은 그림 2.13에서의 9개의 산점도(scatterplot)와 대응됩니다. 자기상관 계수는 보통 자기상관함수(ACF)를 나타내기 위해 그립니다. 이 그래프는 상관도표(correlogram)라고도 알려져 있습니다.

ggAcf(beer2)
분기별 맥주 생산량에 대한 자기상관함수.

Figure 2.14: 분기별 맥주 생산량에 대한 자기상관함수.

이 그래프에서:

  • \(r_{4}\)는 다른 시차들의 경우보다 값이 높은데, 이것은 데이터의 계절성 패턴 때문입니다: 고점은 4개의 분기마다 나타나는 경향이 있고, 마찬가지로 저점 역시 4개의 분기마다 나타나는 경향이 있습니다.
  • \(r_{2}\)는 다른 시차들보다 더 큰 음의 값을 나타내는데, 왜냐하면 저점이 고점 직후의 2개 분기마다 나타나는 경향 때문입니다.
  • 파란 점선은 상관계수가 0과 유의하게 다른지 아닌지를 나타냅니다. 이러한 것을 2.9 절에서 설명합니다.

ACF 그래프에서 추세와 계절성

데이터에 추세가 존재할 때, 작은 크기의 시차에 대한 자기상관은 큰 양의 값을 갖는 경향이 있는데, 왜냐하면 시간적으로 가까운 관측치들이 관측값의 크기에 있어서도 비슷하기 때문입니다. 그래서 추세가 있는 시계열의 ACF는 양의 값을 갖는 경향이 보이며, 이러한 ACF의 값은 시차가 증가함에 따라 서서히 감소한다.

데이터에 계절성이 존재할 때의 자기상관은 다른 시차의 경우보다 계절성 시차(계절성 빈도의 배수로 나타나는)의 경우에 더 크게 나타날 것입니다.

추세와 계절성을 모두를 나타내는 데이터의 경우에는 이들의 조합된 효과를 확인할 수 있습니다. 그림 2.15 의 호주 월별 전력 수요 시계열은 추세와 계절성 양쪽 모두를 나타냅니다. 이 시계열의 ACF은 그림 2.16 에 있습니다.

aelec <- window(elec, start=1980)
autoplot(aelec) + xlab("연도") + ylab("기가와트시(GWh)")
1980년부터 1995년까지 호주 월별 전력 수요.

Figure 2.15: 1980년부터 1995년까지 호주 월별 전력 수요.

ggAcf(aelec, lag=48)
월별 호주 전력 수요의 ACF.

Figure 2.16: 월별 호주 전력 수요의 ACF.

시차값(lags)이 증가할수록 ACF 값이 서서히 감소하는 것은 추세 때문인 반면, “물결 모양(scalloped)”이 나타나는 것은 계절성 때문입니다.