8.5 イノベーション状態空間モデル

本章の残りでは、これまで見てきた指数平滑化法の根底にある統計モデルを学びます。表8.6に示した指数平滑化法は点予測を生成するアルゴリズムでした。本節の統計モデルは、同じ点予測を生成しますが、区間予測も生成できます。統計モデルは確率(あるいは、ランダム)データ生成過程で、予測の分布全体を生成できます。また、客観的なやり方でモデルを選択するために、7章で紹介したモデル選択規準をどう使うかも述べます。

各モデルは、観測値を描写する計測方程式と、観測されていない成分や状態(水準、トレンド、季節性)の経時変化を描写する状態方程式から成ります。ですから、状態空間モデルと言います。

手法ごとに2つのモデルが存在します。一つは加法誤差を持つモデルで、もう一つは乗法誤差を持つモデルです。両モデルで同じ値の平滑化パラメータを使っているなら、生成する点予測は同じになります。しかし、生成する区間予測は違ってきます。

加法誤差のモデルと乗法誤差のモデルを区別するため(また、手法とモデルを区別するため)、表8.5の分類に第3の文字を追加します。誤差、トレンド、季節性を並べてETS(\(\cdot,\cdot,\cdot\))と表し、各状態空間モデルのラベルとします。このラベルは指数平滑化のものと考えることもできます。表8.5と同じ表記を使うと、各成分が取り得るのは、誤差\(=\{\)A,M\(\}\)、トレンド\(=\{\)N,A,A\(_d\}\)、季節性\(=\{\)N,A,M\(\}\)です。

ETS(A,N,N): 加法誤差を持つ単純指数平滑化

単純指数平滑化の成分表記を思い起こしましょう。 \[\begin{align*} \text{予測方程式} && \hat{y}_{t+1|t} & = \ell_{t}\\ \text{平滑化方程式} && \ell_{t} & = \alpha y_{t} + (1 - \alpha)\ell_{t-1} \end{align*}\] 水準の平滑化方程式を組み直すと、「誤差修正」表記を得ます。 \[\begin{align*} \ell_{t} %&= \alpha y_{t}+\ell_{t-1}-\alpha\ell_{t-1}\\ &= \ell_{t-1}+\alpha( y_{t}-\ell_{t-1})\\ &= \ell_{t-1}+\alpha e_{t} \end{align*}\] ただし、\(e_{t}=y_{t}-\ell_{t-1}=y_{t}-\hat{y}_{t|t-1}\)\(t\)時点の残差です。

訓練データ誤差が、\(t=1,\dots,T\)の平滑化プロセスを通じて推計される水準を調整していきます。例えば、\(t\)時点の誤差が負なら、\(y_t < \hat{y}_{t|t-1}\)ということですから、\(t-1\)時点の推計された水準は過大だったことになります。新しい水準\(\ell_t\)は、1つ前の水準\(\ell_{t-1}\)から下方に調整されます。\(\alpha\)が1に近いほど、水準の推計はより「ラフ」(大きな調整が起きること)になります。\(\alpha\)が小さいほど、水準はより「平滑」(小さな調整が起きること)になります。

\(y_t = \ell_{t-1} + e_t\)と書くこともできますから、各観測値は1つ前の水準プラス誤差で表されます。これをイノベーション状態空間モデルにするのに必要なのは、\(e_t\)の確率分布を指定することだけです。加法誤差を持つモデルでは、残差(訓練データでの1期先誤差)\(e_t\)は正規分布のホワイトノイズで、平均0、分散\(\sigma^2\)と想定します。これを、\(e_t = \varepsilon_t\sim\text{NID}(0,\sigma^2)\)と略記します。NIDは「normally and independently distributed (正規で独立な分布)」の意味です。

すると、モデルの方程式は以下のように書けます。 \[\begin{align} y_t &= \ell_{t-1} + \varepsilon_t \tag{8.3}\\ \ell_t&=\ell_{t-1}+\alpha \varepsilon_t \tag{8.4} \end{align}\] (8.3)計測(あるいは、観測)方程式、(8.4)状態(あるいは、遷移)方程式と呼びます。これら2つの方程式と誤差の統計分布で、完全に指定された統計モデルを形成します。具体的には、単純指数平滑化の根底にあるイノベーション状態空間モデルです。

「イノベーション」と付いているのは、全ての方程式が同一のランダム誤差過程\(\varepsilon_t\)を使っている、という事実から来ています。同じ理由で、この定式化は「単一誤差源」モデルとも呼ばれます。替わって、複数の誤差源のある定式化もありますが、ここでは示しません。

計測方程式は観測値と観測されていない状態との間の関係を表します。このケースでは、観測値\(y_t\)は、\(y_t\)の予測可能部分である状態\(\ell_{t-1}\)と、\(y_t\)の予測不可能部分である誤差\(\varepsilon_t\)の線形関数です。他のイノベーション状態空間モデルでは、この関係が非線形のこともあります。

状態方程式は状態の経時進化を表します。平滑化パラメータ\(\alpha\)の影響は、ここまで議論した手法と同じです。例えば、連続する2時点間でどれだけ水準が変化できるか決めるのは、\(\alpha\)です。\(\alpha\)が大きいと水準は急速に変化でき、\(\alpha\)が小さいと平滑な変化になります。\(\alpha=0\)なら、系列の水準は時を経て変化しません。\(\alpha=1\)なら、\(y_t=y_{t-1}+\varepsilon_t\)となり、ランダムウォーク・モデルになります。(このモデルの議論は、9.1節を参照)

ETS(M,N,N): 乗法誤差を持つ単純指数平滑化

似たような格好で、訓練データでの1期先誤差を相対誤差で書けば、乗法誤差を持つモデルを指定できます。 \[ \varepsilon_t = \frac{y_t-\hat{y}_{t|t-1}}{\hat{y}_{t|t-1}} \] ただし、\(\varepsilon_t \sim \text{NID}(0,\sigma^2)\)です。 \(\hat{y}_{t|t-1}=\ell_{t-1}\)を代入すると、\(y_t = \ell_{t-1}+\ell_{t-1}\varepsilon_t\)\(e_t = y_t - \hat{y}_{t|t-1} = \ell_{t-1}\varepsilon_t\)になります。

すると、乗法誤差を持つ状態空間モデルは以下のように書けます。 \[\begin{align*} y_t&=\ell_{t-1}(1+\varepsilon_t)\\ \ell_t&=\ell_{t-1}(1+\alpha \varepsilon_t) \end{align*}\]

ETS(A,A,N): 加法誤差を持つHoltの線形手法

このモデルでは、訓練データでの1期先誤差は\(\varepsilon_t=y_t-\ell_{t-1}-b_{t-1} \sim \text{NID}(0,\sigma^2)\)で与えられると想定します。これを、Holtの線形手法の誤差修正表記方程式に代入すると、以下を得ます。 \[\begin{align*} y_t&=\ell_{t-1}+b_{t-1}+\varepsilon_t\\ \ell_t&=\ell_{t-1}+b_{t-1}+\alpha \varepsilon_t\\ b_t&=b_{t-1}+\beta \varepsilon_t \end{align*}\] ただし、簡略化のため\(\beta=\alpha \beta^*\)と設定しています。

ETS(M,A,N): 乗法誤差を持つHoltの線形モデル

訓練データでの1期先誤差を相対誤差で、以下のように指定します。 \[ \varepsilon_t=\frac{y_t-(\ell_{t-1}+b_{t-1})}{(\ell_{t-1}+b_{t-1})} \] そして、上で使ったのと似たアプローチに従うと、乗法誤差を持つHoltの線形手法の根底にあるイノベーション状態空間モデルは、以下のように指定されます。 \[\begin{align*} y_t&=(\ell_{t-1}+b_{t-1})(1+\varepsilon_t)\\ \ell_t&=(\ell_{t-1}+b_{t-1})(1+\alpha \varepsilon_t)\\ b_t&=b_{t-1}+\beta(\ell_{t-1}+b_{t-1}) \varepsilon_t \end{align*}\]

ただし、ここでも、\(\beta=\alpha \beta^*\)で、\(\varepsilon_t \sim \text{NID}(0,\sigma^2)\)です。

その他のETSモデル

同じような格好で、表8.6の指数平滑化法それぞれのイノベーション状態空間モデルを書くことができます。表8.7は、ETSフレームワークにある全てのモデルの方程式です。

表: (#tab:ssm) ETSフレームワークにある各モデルの状態空間方程式