1.6 예측 작업의 기본 단계

예측 작업에는 보통 다섯 가지 기본 단계가 있습니다.

1단계: 문제 정의.
예측 작업에서 종종 이 단계가 가장 어려운 부분이 됩니다. 신중하게 문제 정의할 때에는 예측값이 어떤 방식으로 사용될지, 누가 예측값을 요구하는지, 예측 함수가 예측값을 요구하는 조직에 얼마나 잘 어울릴지를 모두 이해할 필요가 있습니다. 예측하는 사람은 데이터 수집 과정, 데이터베이스 유지 보수, 예측값 제공 방식 등을 미래 계획 수립 담당자 모두와 시간을 내서 대화할 필요가 있습니다.
2단계: 정보 수집.
항상 최소한으로 요구되는 데이터 종류에는 두 가지가 있습니다: (1) 통계 데이터, (2) 데이터를 모으고 예측값을 사용하는 사람들에게 축적된 전문지식. 좋은 통계 모델을 맞출 수 있는 과거 데이터를 충분히 모으는 것이 종종 힘들 수 있습니다. 이러한 경우에는 4 장의 판단예측(judgmental forecasting) 기법을 사용할 수 있습니다. 가끔, 오래된 데이터는 예측하려는 시스템에 구조적인 변화가 생겨서 쓸모 없을 수도 있습니다; 이 때는 가장 최근의 데이터만 선택해서 사용해야 하겠습니다. 하지만, 좋은 통계 모델은 시스템의 변화도 다룰 수 있다는 것을 기억하시길 바랍니다. 좋은 데이터를 불필요하게 버리는 일이 없기를 바랍니다.
3단계: 예비(탐험적; exploratory) 분석.
항상 데이터를 그래프로 나타내는 것으로 시작하시길 바랍니다. 일관된 패턴이 존재합니까? 의미 있는 추세(trend)가 존재합니까? 계절성(seasonality)이 중요합니까? 경기 순환(business cycle)이 존재한다는 증거가 있습니까? 데이터에 전문적인 지식으로 설명할 수 있는 어떤 특이점들이 있습니까? 분석에 사용할 수 있는 변수 사이의 관계가 얼마나 강합니까? 이러한 분석을 돕는 다양한 도구가 존재합니다. 26 장에서 이러한 것들을 다룹니다.
4단계: 모델을 선택하고 맞추기.
과거 데이터를 이용할 수 있는 정도, 예측 변수(forecast variable)와 설명 변수(explanatory variable) 사이 관계의 강도, 그리고 예측값이 사용될 방식에 따라 사용할 가장 좋은 모델이 달라집니다. 각 모델 자체는 몇 가지 (명시적인 그리고 암시적인) 가정에 기초한 것이며, 보통은 알려진 과거 데이터를 사용해서 반드시 계산해야 하는 하나 이상의 매개변수를 포함합니다. 회귀(regression) 모델( 5 장), 지수 평활(exponential smoothing) 기법( 7 장), Box-Jenkins ARIMA 모델( 8 장), 동적 회귀(dynamic regression) 모델( 9 장), 계층적(hierarchical) 예측( 10 장), 신경망(neural network), 벡터 자기회귀(vector autoregression)를 포함한 몇 가지 고급 기법을 다룰 것입니다( 11 ).
5단계: 예측 모델을 사용하고 평가하기.
모델을 선택하고, 모델의 매개변수를 추정한 다음에는, 예측값을 내는 용도로 모델을 사용합니다. 모델의 성능은 예측한 기간에 대한 데이터를 사용할 수 있게 될 때만 제대로 평가할 수 있습니다. 예측의 정확도를 평가할 수 있도록 돕는 기법이 존재합니다. 예측값을 사용하고 예측값에 영향을 주는 회사 차원의 문제도 있습니다. 3 장에서 이러한 문제 몇 가지를 간단하게 살펴봅니다. 실제 상황에서 예측 모델을 사용할 때는, 결측치(또는 빠진 값; missing values)과 이상값(outlier)를 처리하는 방법 또는 짧은 시계열을 다루는 방법 같은 수많은 실제적인 문제가 등장합니다. 이러한 경우는 12 장에서 다룹니다.