12.7 아주 긴 시계열과 아주 짧은 시계열

아주 짧은 시계열을 예측하기

데이터가 거의 없을 때 시계열 모델을 어떻게 맞출 수 있는지 종종 질문 받습니다. 거의 모든 표본 크기의 질문처럼, 쉬운 답변은 없습니다. 데이터에 있는 무작위성의 정도와 모델에서 추정해야 할 매개변수(parameter) 수에 따라 다릅니다. 필요한 표본 크기는 추정해야 할 매개변수의 수에 따라 그리고 데이터에서 나타나는 잡음의 양에 따라 늘어납니다.

몇몇 교과서에서는 주먹구구식으로 다양한 시계열 모델에 대한 최소 표본 크기를 이야기합니다. 이러한 숫자는 오해의 소지가 있고 이론적으로나 실제적으로 입증된 바가 없습니다. 게다가, 이런 것은 데이터의 근본적인 가변성(underlying variability)을 무시하고 추정해야 할 매개변수의 수 역시 간과합니다. 예를 들어, ARIMA 모델링을 위해 종종 최소한으로 주어지는 30의 매직 넘버가 무엇이든지 간에 여기에 정당한 근거는 없습니다. 이론적인 유일한 한계는 예측 모델의 매개변수보다 많은 관측값이 필요하다는 것입니다. 하지만, 실제로는 보통 그 보다 훨씬 더 많은 관측값이 필요합니다.

이상적으로는, 우리가 선택한 모델이 몇 가지 더 단순한 접근법과 비교할 때 표본 밖에서 잘 수행되는지 테스트 할 수 있습니다. 하지만, 짧은 시계열에서는 테스트 목적으로 일부 관측값을 제외 할 수 있을 정도의 충분한 데이터가 없으며, 시계열 교차검증(cross-validation)도 적용하기 어려울 수 있습니다. AICc는 한 단계 예측 외 표본 바깥의 MSE에 대한 한 단계 예측값을 간접적으로 살펴볼 수 있기 때문에 특히 유용합니다. 최소 AICc 값으로 모델을 선택하면 매개변수 개수와 고려할 잡음의 양을 조절할 수 있습니다.

짧은 시계열을 다룰 때는 1~2개 이상의 매개변수로는 추정 오차 때문에 나쁜 예측값을 내기 때문에 AIC가 간단한 모델만 제시하는 경향이 있습니다. auto.arima() 함수를 20개 미만의 관측값에 M 개의 모든 시계열에 적용했습니다. 총 144개의 시계열이 있고, 54 시계열에는 0개의 매개변수(백색잡음(white noise)과 확률보행(random walk))가 있는 모델이 있고, 73 시계열에는 1개의 매개변수가 있는 모델이 있고, 15 시계열에는 2개의 매개변수가 있는 모델이 있고, 2 시계열에는 3개의 매개변수가 있는 모델이 있습니다. 관심 있는 독자는 아래의 코드를 가지고 같은 연습을 해볼 수 있습니다.

library(Mcomp)
library(purrr)
n <- map_int(M1, function(x) {length(x[["x"]])})
M1[n < 20] %>%
  map_int(function(u) {
    u[["x"]] %>%
      auto.arima() %>%
      coefficients() %>%
      length()
  }) %>%
  table()

아주 긴 시계열을 예측하기

대부분의 시계열 모델은 아주 긴 시계열을 잘 다루지 못합니다. 실제 데이터는 우리가 사용하는 모델에서 나온 것이 아니라는 것이 문제입니다. 관측값의 개수가 크지 않을 때(말하자면 200정도까지), 모델은 보통 어떤 과정으로 만들어 낸 데이터라도 종종 근사적으로 잘 다룹니다. 하지만 충분한 데이터가 모이게 되면 진짜 과정과 모델의 차이가 좀 더 분명해지게 됩니다. 포함된 관측값의 개수 때문에 매개변수의 최적화에 시간이 더 걸리게 된다는 것이 추가적인 문제입니다.

모델의 목적에 따라 이런 문제를 어떻게 다룰지가 달라집니다. 더 유연하고 복잡한 모델을 사용할 수 있겠지만, 이것도 여전히 모델이 데이터의 전체 시기에 걸쳐 작동할 것이라는 가정에서 비롯된 것입니다. 보통 모델 자체를 시간에 따라서 바뀌도록 허용하는 것이 더 나은 접근 방식입니다. ETS 모델은 추세와 계절성 항이 시간에 따라서 변하는 항을 넣어서 이러한 상황을 다루도록 설계되었습니다. 차분 계산(differencing)을 포함하는 ARIMA 모델은 특징이 비슷합니다. 하지만 동적 회귀(dynamic regression) 모델은 모델의 성분이 변하지 않습니다.

다른 몇몇 관측값만 예측하는데 관심이 있다면, 가장 초반부의 관측값을 버리고 가장 최근 관측값만 맞추면 거의 결과가 같고 더 단순합니다. 가장 초반부의 관측값을 버리고 모델로 가장 최근 관측값만 맞추는 것은 한 가지 단순한 접근 방식입니다. 관계가 상당히 많이 변하기에는 시간이 부족하기 때문에 유연하지 않은 모델도 잘 작동합니다.

예를 들어, 12.1 절에서 26년 동안의 주별 가솔린 생산 데이터에 동적 조화 회귀(dynamic harmonic regression) 모델을 맞췄습니다. 거의 30년 동안 계절성 패턴이 같았다고 두는 것은 아마도 실제적이지 않을 것입니다. 따라서 대신에 모델로 최근 몇 년을 맞출 수 있을 것입니다.