1.4 예측 데이터와 기법

주로 어떤 데이터를 사용할 수 있는지에 따라 적절한 예측 기법이 달라집니다.

이용할 수 있는 데이터가 없거나, 이용할 수는 있지만 예측에 상관 없는 데이터라면, 정성적인 예측 기법을 사용해야합니다. 이러한 기법은 그냥 단순한 짐작이 아닙니다. 과거 데이터를 이용하지 않고 좋은 예측값을 내도록 잘 개발된 구조화된 접근법입니다. 4장에서 이러한 기법을 다룹니다.

정량적인 예측은 두 가지 조건을 만족할 때 사용할 수 있습니다.

  1. 과거 수치 정보를 사용할 수 있을 때
  2. 과거 패턴의 몇 가지 양상이 미래에도 계속될 것이라고 가정하는 것이 합리적일 때

종종 특정한 분야에서 특정한 목적을 위하여 개발된 여러 정량적 예측 기법이 있습니다. 특정 기법을 선택할 때는 각 기법의 특성, 정확도, 비용 등을 반드시 고려해야합니다.

대부분의 정량적인 예측 문제는 (시간에 따라 일정한 간격으로 모든) 시계열이나 (특정 시점에서 모은) 횡단면(cross-sectional) 데이터를 사용합니다. 미래 데이터를 예측하는 일이 이 책의 주제이니, 시계열 영역에 집중하겠습니다.

시계열 예측

다음과 같은 문제는 시계열 데이터로 다룰 수 있습니다.

  • IBM 일별 주가
  • 월별 강우량
  • Amazon의 분기별 판매 결과
  • Google의 연간 수익

위와 같이 시간에 따라 순차적으로 관측된 것을 시계열로 다룰 수 있습니다. 이 책에서는 (예를 들면, 시간별, 일별, 주별, 월별, 분기별, 연간) 일정한 시간 간격에 따라 관측된 시계열만 다룰 것입니다. 시간 간격이 불규칙적인 시계열도 있을 수 있습니다만, 이 책에서는 다루지 않습니다.

시계열 데이터를 예측할 때, 목표는 관측값의 수열이 미래에 계속될 것인지 예측하는 것입니다. 그림 1.1은 1992년부터 2010년 2분기까지 호주 맥주의 분기별 생산량입니다.

호주 분기별 맥주 생산: 1992년 1분기 - 2010년 2분기 2년 예측값과 함께 표시

Figure 1.1: 호주 분기별 맥주 생산: 1992년 1분기 - 2010년 2분기 2년 예측값과 함께 표시

파란색 선은 다음 2년에 대한 예측값입니다. 예측값들이 과거 데이터에서 나타나는 계절성 패턴을 얼마나 잘 잡아내는지 그리고 다음 2년에 대해 얼마나 잘 모사하는지 주목하시길 바랍니다. 어둡게 그늘로 표시한 영역은 80% 예측 구간(prediction interval)을 의미합니다. 즉, 각 미래값이 80% 확률로 어두운 그늘로 표시한 영역에 들어갈 것으로 예측하고 있습니다. 밝은 그늘로 표시한 영역은 95% 예측 구간을 의미합니다. 이러한 예측 구간은 예측의 불확실성을 나타낼 때 쓸모가 있습니다. 이 경우에는 예측값이 정확할 것으로 예상되고, 따라서 예측 구간이 아주 좁습니다.

가장 단순한 시계열 예측 기법은 예측할 변수 정보만 이용하고, 변수의 행동에 영향을 미치는 다른 요인들을 고려하지 않습니다. 이러한 기법은 추세와 계절성 패턴을 외삽(extrapolate)하지만, 마케팅 계획이나 경쟁사의 활동, 경제 상황 변화 등의 다른 모든 정보를 무시합니다.

시계열 예측용 모델에는 분해 모델, 지수 평활, ARIMA 모델 등이 있습니다. 6, 7 , 8 장에서 각각 이러한 모델을 다룹니다.

예측 변수와 시계열 예측

예측 변수(predictor variable)는 시계열을 예측할 때 종종 유용합니다. 예를 들어, 여름 기간 동안 더운 지역의 시간당 전기 수요(ED, electricity demand)를 예측하려는 상황을 생각해봅시다. 예측 변수를 고려하는 모델은 이러한 형태일 것입니다. \[\begin{align*} \text{ED} = & f(\text{현재 기온, 경제 상황, 인구,}\\ & \qquad\text{시간, 요일, 오차}). \end{align*}\] 예측 변수로 (완벽하게) 설명할 수 없는 전기 수요량은 항상 변화할 것이기에 이 관계는 정확하지 않습니다. 위의 모델에서 우변에 있는 “오차(error)”항은 무작위 변동과 더불어 모델에 포함하지 않은 관련 변수의 영향까지 고려하는 역할을 합니다. 어떤 것이 전기 수요의 변동을 일으키는지 설명할 때 도움이 되기 때문에 이 모델을 설명 모형(explanatory model)이라고 부릅니다.

전기 수요 데이터가 시계열이라서, 예측할 때 시계열 모델을 사용할 수도 있습니다. 이 경우에, 적합한 시계열 예측식의 형태는 다음과 같습니다. \[ \text{ED}_{t+1} = f(\text{ED}_{t}, \text{ED}_{t-1}, \text{ED}_{t-2}, \text{ED}_{t-3},\dots, \text{오차}), \] 여기에서 \(t\)는 현재 시간, \(t+1\)은 한 시간 후, \(t-1\)은 한 시간 전, \(t-2\)는 2시간 전, 나머지도 이와 같습니다. 여기에서는 변수의 과거 값으로 미래 예측을 합니다만, 시스템에 영향을 줄 수 있는 외부 변수는 사용하지 않습니다. 또 다시, 우변의 “오차(error)” 항으로 무작위 변동과 모델에 넣지 않은 관련 변수의 효과를 감안합니다.

위의 두 모델의 특징을 결합한 세 번째 종류의 모델도 있습니다. 예를 들어, 다음과 같이 주어질 것입니다. \[ \text{ED}_{t+1} = f(\text{ED}_{t}, \text{현재 기온, 시간, 요일, 오차}). \] 이러한 종류의 “혼합된 모델(mixed models)”은 분야에 따라 다양한 이름으로 불립니다. 동적 회귀(dynamic regression) 모델, 패널(panel) 데이터 모델, 종단적(longitudinal) 모델, 수송 함수(transfer function) 모델, (\(f\)가 선형이라고 가정하는) 선형 시스템(linear system) 모델이라고 알려져 있습니다. 9 장에서 이러한 모델을 다룹니다.

예측하려는 변수의 과거 값만 다루지 않고 다른 변수에 관한 정보도 포함하기 때문에 설명 모형은 유용합니다. 하지만, 예측하는 사람이 설명 모델이나 혼합된 모델 대신에 시계열 모델을 선택할 수도 있는 몇 가지 이유가 있습니다. 먼저, 시스템을 잘 이해하지 못하거나, 이해하더라도 변수의 행동에 영향을 주는 관계를 측정하기가 아주 어려운 경우입니다. 다음, 관심 있는 변수를 예측할 수 있으려면 다양한 예측 변수의 미래값을 알 필요가 있거나 예측할 필요가 있는 경우입니다. 그리고, 주된 관심이 왜 일어나는지가 아니라 무엇이 일어나는지만 예측하는데 있는 경우입니다. 마지막으로, 시계열 모델이 설명 모델이나 혼합 모델보다 더 정확한 예측값을 내는 경우입니다.

사용할 수 있는 자원과 데이터, 비교 모델의 정확도, 예측 모델이 사용될 방식에 따라 예측에 사용할 모델이 달라집니다.