7.5 지수 평활에 대한 혁신 상태 공간 모델

이 장의 나머지 부분에서는 지금까지 살펴본 지수 평활 기법에 깔린 통계적인 모델을 공부하겠습니다. 표 7.6에 나타낸 지수 평활 기법은 점 예측값을 내는 알고리즘입니다. 이 절에서 다루는 통계 모델은 같은 점 예측값을 내는 동시에 예측 구간도 생성합니다. 통계 모델이란 전체 예측분포를 만들어줄 수 있는 무작위적 데이터 생성 과정입니다. 여기에서 소개할 일반적인 통계적인 틀은 5 장에서 소개한 모델 선택 기준을 사용하는 방법도 제공하여, 모델을 객관적으로 선택할 수 있게 도와줍니다.

각 모델은 관측된 데이터를 묘사하는 측정식(measurement equation)과, 아직 관측되지 않은 성분이나 상태(수준, 추세, 계절성)가 시간에 따라 어떻게 변하는지 기술하는 몇 가지 상태식(state equation)으로 구성됩니다. 이러한 이유에서 상태 공간 모델(state space models)이라고 부릅니다.

각 기법마다 두 가지 모델이 존재합니다. 하나는 덧셈 오차를, 다른 하나는 곱셈 오차를 이용합니다. 같은 평활 매개변수 값을 사용했다면, 모델이 낸 얻은 점 예측은 같습니다. 하지만, 모델은 다른 예측 구간을 생성할 것입니다.

덧셈 오차와 곱셈 오차를 사용하는 모델을 구분하기 위해(그리고 또한 기법에서 모델을 구분하기 위해) 표 7.5의 분류에 세 번째 문자 하나를 더 추가합니다. (오차Error, 추세Trend, 계절성Seasonal)에 대해 각 상태 공간 모델을 ETS(\(\cdot,\cdot,\cdot\))로 나타냅니다. 이 ETS를 ExponenTial Smoothing이라고도 생각할 수 있습니다. 표 7.5에 있는 것과 같은 표기법을 사용하면, 각 성분에 대한 가능한 상태는 다음과 같습니다: 오차 \(=\{\)A,M\(\}\), 추세 \(=\{\)N,A,A\(_d\}\) 그리고 계절성 \(=\{\)N,A,M\(\}\).

ETS(A,N,N): 덧셈 오차를 이용하는 단순 지수평활

단순 지수평활의 성분 식을 다시 생각해봅시다: \[\begin{align*} \text{Forecast equation} && \hat{y}_{t+1|t} & = \ell_{t}\\ \text{Smoothing equation} && \ell_{t} & = \alpha y_{t} + (1 - \alpha)\ell_{t-1}, \end{align*}\] 수준에 대한 평활식을 다시 정리하면, “오차 보정(error correction)” 식을 얻습니다: \[\begin{align*} \ell_{t} %&= \alpha y_{t}+\ell_{t-1}-\alpha\ell_{t-1}\\ &= \ell_{t-1}+\alpha( y_{t}-\ell_{t-1})\\ &= \ell_{t-1}+\alpha e_{t} \end{align*}\] 여기에서 \(t=1,\dots,T\)에 대해 \(e_{t}=y_{t}-\ell_{t-1}=y_{t}-\hat{y}_{t|t-1}\)는 시간 \(t\)에서의 잔차(residual)입니다.

훈련 데이터 오차는 \(t=1,\dots,T\)에 대한 평활 과정에 걸쳐 추정된 수준의 조정으로 이어집니다. 예를 들면, 시간 \(t\)에서 오차가 음수이면, \(y_t < \hat{y}_{t|t-1}\)이고 따라서 시간 \(t-1\)에서 수준은 과도하게 추정됩니다. 그러면 새로운 수준 \(\ell_t\)은 하향 조정된 이전 수준 \(\ell_{t-1}\)이 됩니다. \(\alpha\)가 1에 가까울 수록, 수준 추정이 더 고르지 않게 됩니다(큰 조정이 일어납니다). \(\alpha\)가 작을 수록, 수준이 더 고르게 됩니다(작은 조정이 일어납니다).

각 관측값이 이전 수준에 오차를 더한 것과 같게 두기 위해 다음과 같이 \(y_t = \ell_{t-1} + e_t\) 이렇게 쓸 수도 있습니다. 이것을 혁신 상태 공간 모델(innovation state space model)로 만들기 위해, \(e_t\)에 대한 확률 분포를 식으로 구체적으로 적는 작업이 필요합니다. 덧셈 오차를 이용하는 모델에 대해, 잔차 (한 단계 학습 오차) \(e_t\)가 평균이 0이면서 분산이 \(\sigma^2\)인 정규 분포를 따르는 백색잡음(white noise)이라고 가정합니다. 이렇게 가정한 것을 다음과 같이 \(e_t = \varepsilon_t\sim\text{NID}(0,\sigma^2)\) 이렇게 간단하게 씁니다. 여기에서 NID는 “정규적으로 그리고 독립적으로 분포된(normally and independently distributed)”이라는 말을 줄여 쓴 것입니다.

그러면 모델의 식들을 다음과 같이 쓸 수 있습니다. \[\begin{align} y_t &= \ell_{t-1} + \varepsilon_t \tag{7.3}\\ \ell_t&=\ell_{t-1}+\alpha \varepsilon_t. \tag{7.4} \end{align}\](7.3)측정(또는 관측) 방정식으로, 식 (7.4)상태(또는 전이) 방정식으로 부릅시다. 오차의 통계적인 분포를 함께 이용한 이러한 두 식이 전체적으로 명확한 통계 모델을 이룹니다. 특별히, 이러한 식이 단순 지수 평활을 이루는 혁신 상태 공간 모델(innovations state space model)이 됩니다.

“혁신(innovations)”이라는 단어는 이러한 종류의 설명에서 모든 식이 같은 무작위 오차 과정\(\varepsilon_t\)을 사용한다는 사실에서 유래합니다. 같은 이유에서, 이렇게 식을 세우는 과정을 “오차의 단일 원천(single source of error)”으로 부르기도 합니다. 오차가 생기는 다른 여러 이유가 있습니다(여기에서 다루지는 않았습니다).

측정 방정식은 관측값과 아직 관측되지 않은 상태와의 관계를 보여줍니다. 이 경우에, 관측값 \(y_t\)는 수준 \(\ell_{t-1}\)와, \(y_t\)의 예측 가능한 부분과, 오차\(\varepsilon_t\), \(y_t\)의 예측 가능하지 않은 부분의 선형 함수입니다. 다른 혁신 상태 공간 모델의 경우에는 이러한 관계가 비선형적일 수도 있습니다.

상태 방정식은 시간에 따른 상태의 변화를 나타냅니다. 평활 매개변수 \(\alpha\)의 영향은 이전에 언급한 기법의 경우에서 살펴본 것과 같습니다. 예를 들면, \(\alpha\)는 연이은 수준값의 변화량에 영향을 줍니다. 높은 \(\alpha\) 값은 급격한 수준 변화와 관련 있습니다. 작은 \(\alpha\) 값은 매끄러운 변화와 관련 있습니다. \(\alpha=0\)일 때는, 시계열의 수준은 시간에 따라 변하지 않습니다. \(\alpha=1\)일 때는, 확률보행 모델(random walk model) \(y_t=y_{t-1}+\varepsilon_t\)과 같게 됩니다. (이 모델에 대한 논의는 8.1 절을 참조하시길 바랍니다.)

ETS(M,N,N): 곱셈 오차를 이용하는 단순 지수평활

같은 방식으로, 한 단계 앞 학습 오차를 상대적인 오차로 써서 곱셈 오차를 이용하는 모델을 세울 수 있습니다: \[ \varepsilon_t = \frac{y_t-\hat{y}_{t|t-1}}{\hat{y}_{t|t-1}} \] 여기에서 \(\varepsilon_t \sim \text{NID}(0,\sigma^2)\)입니다. \(\hat{y}_{t|t-1}=\ell_{t-1}\)을 대입하면 \(y_t = \ell_{t-1}+\ell_{t-1}\varepsilon_t\)\(e_t = y_t - \hat{y}_{t|t-1} = \ell_{t-1}\varepsilon_t\)을 얻습니다.

그러면 상태 공간 모델의 곱셈 형태를 다음과 같이 쓸 수 있습니다. \[\begin{align*} y_t&=\ell_{t-1}(1+\varepsilon_t)\\ \ell_t&=\ell_{t-1}(1+\alpha \varepsilon_t). \end{align*}\]

ETS(A,A,N): 덧셈 오차를 이용한 홀트의 선형 기법

이 모델에서, 한 단계 앞 학습 오차가 \(\varepsilon_t=y_t-\ell_{t-1}-b_{t-1} \sim \text{NID}(0,\sigma^2)\) 이렇게 주어진다고 가정합니다. 이것을 홀트(Holt)의 선형 기법에 대한 오차 보정식에 대입하면 다음과 같은 식을 얻습니다. \[\begin{align*} y_t&=\ell_{t-1}+b_{t-1}+\varepsilon_t\\ \ell_t&=\ell_{t-1}+b_{t-1}+\alpha \varepsilon_t\\ b_t&=b_{t-1}+\beta \varepsilon_t, \end{align*}\] 간결하게 쓰기 위해, 여기에서 \(\beta=\alpha \beta^*\)로 두었습니다.

ETS(M,A,N): 곱셈 오차를 이용하는 홀트의 선형 기법

한 단계 앞 학습 오차를 상대적인 오차로 다음과 같이 적고 \[ \varepsilon_t=\frac{y_t-(\ell_{t-1}+b_{t-1})}{(\ell_{t-1}+b_{t-1})} \] 위에서 사용한 것과 비슷한 접근 방식을 따르면, 곱셈 오차를 이용하는 홀트의 선형 기법을 이루는 혁신 상태 공간 모델을 다음과 같이 구체적으로 적을 수 있습니다. \[\begin{align*} y_t&=(\ell_{t-1}+b_{t-1})(1+\varepsilon_t)\\ \ell_t&=(\ell_{t-1}+b_{t-1})(1+\alpha \varepsilon_t)\\ b_t&=b_{t-1}+\beta(\ell_{t-1}+b_{t-1}) \varepsilon_t \end{align*}\] 다시 한번 여기에서 \(\beta=\alpha \beta^*\)이고 \(\varepsilon_t \sim \text{NID}(0,\sigma^2)\)입니다.

다른 ETS 모델

비슷한 방식으로, 표 7.6의 지수평활(exponential smoothing) 모델 각각에 대한 혁신 상태 공간 모델(innovation state space model)을 쓸 수 있습니다. 표 7.7에 ETS 틀 안에 있는 모든 모델에 대한 식을 나타냈습니다.

표: (#tab:ssm) ETS 체계 안에 있는 모델 각각에 대한 상태 공간 식.