1.7 통계적 예측 관점

우리가 예측하려는 대상이 알려져있지 않다면 (그렇지 않으면 - 즉, 알려져 있다면 - 우리는 그 대상을 예측하지 않을 것입니다), 이와 같은 대상을 확률변수(random variable)로 생각할 수 있습니다. 예를 들어, 다음 달 총판매량은 가능한 값의 범위에서 선택할 수 있겠지만, 다음 달 말에 실제 판매량을 합산하기 전까지는 총판매량이 얼마가 될지 알 수 없습니다. 그래서 다음 달의 판매량을 알게 되기 전까지는 이 값은 무작위 수량입니다.

상대적으로 다음 달은 먼 미래가 아니기 때문에, 보통은 가능한 판매량이 어떻게 될 지 좋은 생각을 가지고 있습니다. 반면에, 내년 같은 달의 판매량을 예측하려고 하면, 될 수 있는 값의 범위가 훨씬 더 넓을 것입니다. 예측하려는 대부분의 상황에서, 우리가 예측하려는 것과 관련된 변동은 그 사건이 다가올 수록 줄어들 것입니다. 다르게 말하면, 더 멀리 예측할 수록, 더 확신하기 어렵다는 것입니다.

우리가 예측하고 싶은 것에 대한 서로 다른 값을 내는 많은 가능한 미래를 생각할 수 있습니다. 아래 나타낸 그림에서 검은색으로 나타낸 것은 1980년부터 2015년까지 호주를 방문하는 외국인의 숫자입니다. 2016년부터 2025년까지 10개의 가능한 미래값도 나타냈습니다.

호주를 방문하는 전체 외국인 수를 (1980-2015) 10개의 가능한 미래값과 함께 나타냄.

Figure 1.2: 호주를 방문하는 전체 외국인 수를 (1980-2015) 10개의 가능한 미래값과 함께 나타냄.

예측값을 얻으면, 확률변수(random variable)가 가질 수 있는 가능한 값들의 범위에서 가운데를 추정합니다. 종종 예측값은 확률변수(random variable)가 비교적 높은 확률로 취할 수 있는 값들의 범위를 제시하는 예측구간(prediction interval)을 수반합니다. 예를 들어, 95% 예측구간은 95% 확률로 실제 미래의 값을 포함할 값의 범위를 제시합니다.

그림 1.2처럼 각각의 가능한 미래를 그리는 대신, 보통은 이러한 예측구간(prediction interval)을 나타냅니다. 아래 그림은 미래 호주 외국인 방문객 수에 대한 80%와 95% 구간입니다. 파란선은 가능한 미래 값의 평균값인데, 이것을 점예측(point forecast: 구간예측과 상반되는 개념으로 값의 범위가 아닌 특정값을 지정한다는 의미)이라고 부릅니다.

호주를 방문하는 전체 외국인 수 (1980–2015) 10년 예측값과 80% 예측구간과 95% 예측구간을 함께 나타낸 것.

Figure 1.3: 호주를 방문하는 전체 외국인 수 (1980–2015) 10년 예측값과 80% 예측구간과 95% 예측구간을 함께 나타낸 것.

시간에 대해 \(t\)라는 아래첨자를 사용하겠습니다. 예를 들어, \(y_t\)는 시간 \(t\)에서의 관측값을 나타냅니다. 우리가 관측한 모든 정보를 \(\mathcal{I}\)로, 우리가 예측하고 싶은 것을 \(y_t\)로 씁시다. 그리고 “우리가 아는 \(\mathcal{I}\)이 주어진 상황에서의 무작위 변수 \(y_{t}\)”를 의미하는 \(y_{t} |\mathcal{I}\)를 씁시다. 상대적인 확률 값에 따라 이 무작위 변수가 가질 수 있는 값은 \(y_{t} |\mathcal{I}\)의 “확률분포(probability distribution)”라고 합니다. 예측할 때, 이것을 예측분포(forecast distribution)라고 부릅니다.

“예측”을 말할 때, 보통은 예측분포(forecast distribution)의 평균을 가리키고, 나타낼 때 \(y\) 위에 “모자 기호(hat)”을 씌웁니다. 따라서, \(y_t\)의 예측을, 우리가 아는 모든 것에서 \(y_t\)가 가질 수 있는 가능한 값의 평균을 의미하는 \(\hat{y}_t\)로 씁니다. 가끔, \(\hat{y}_t\)를 예측 분포의 중간값median (또는 중앙값) 대신에 \(\hat{y}_t\)로 쓸 것입니다.

예측값을 계산할 때 우리가 사용할 정보를 정확하게 정하는 것은 종종 유용합니다. 그러면 예를 들면, 모든 이전 관측값을 \((y_1,\dots,y_{t-1})\) 고려한 \(y_t\)의 예측을 의미하도록 \(\hat{y}_{t|t-1}\)을 쓸 수 있습니다. 비슷하게, \(\hat{y}_{T+h|T}\)\(y_1,\dots,y_T\)을 고려하는 \(y_{T+h}\)의 예측을 의미합니다(즉, 시간 \(T\)까지의 모든 관측값을 고려한 \(h\)단계 예측).