7.9 行列表記

警告: 本節はより高度な内容で、線形代数の知識を必要とします。飛ばして構いません。

重回帰モデルは以下のように書けることを思い起こしましょう。 \[ y_{t} = \beta_{0} + \beta_{1} x_{1,t} + \beta_{2} x_{2,t} + \cdots + \beta_{k} x_{k,t} + \varepsilon_{t} \] ただし、\(\varepsilon_{t}\)は平均ゼロで、分散\(\sigma^2\)です。予測対象変数の一つ一つの値と複数の予測変数の間の関係を表しています。

予測対象変数の全ての値を1つの式で表す行列表記で書けると便利です。\(\bm{y} = (y_{1},\dots,y_{T})'\)\(\bm{\varepsilon} = (\varepsilon_{1},\dots,\varepsilon_{T})'\)\(\bm{\beta} = (\beta_{0},\dots,\beta_{k})'\)、そして、 \[ \bm{X} = \left[ \begin{matrix} 1 & x_{1,1} & x_{2,1} & \dots & x_{k,1}\\ 1 & x_{1,2} & x_{2,2} & \dots & x_{k,2}\\ \vdots& \vdots& \vdots&& \vdots\\ 1 & x_{1,T}& x_{2,T}& \dots& x_{k,T} \end{matrix}\right] \] とすると、 \[ \bm{y} = \bm{X}\bm{\beta} + \bm{\varepsilon} \] ただし、\(\bm{\varepsilon}\)は平均が\(\bm{0}\)で、分散が\(\sigma^2\bm{I}\)です。\(\bm{X}\)行列には、観測値の数\(T\)行と、切片プラス予測変数の数\(k+1\)列があることに留意してください。

最小2乗法

最小2乗法は、\(\bm{\varepsilon}'\bm{\varepsilon} = (\bm{y} - \bm{X}\bm{\beta})'(\bm{y} - \bm{X}\bm{\beta})\)で表される値の最小化で行われます。\(\bm{\beta}\)が以下の値を取るときに最小になります。 \[ \hat{\bm{\beta}} = (\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} \] これを「正規方程式」と言うことがあります。係数の推計には行列\(\bm{X}'\bm{X}\)の逆行列が必要です。もし\(\bm{X}\)の階数が列数と等しい最大階数でなければ、\(\bm{X}'\bm{X}\)は逆行列を持たないため、モデルは推計できません。例えば、7.4節で議論したようにカテゴリー変数のカテゴリー数と同じ数だけダミー変数を持ってしまう「ダミー変数の罠」に陥ると、そうなります。

残差分散の推計には、以下を使います。 \[ \hat{\sigma}_e^2 = \frac{1}{T-k-1}(\bm{y} - \bm{X}\hat{\bm{\beta}})' (\bm{y} - \bm{X}\hat{\bm{\beta}}) \]

当てはめ値と交差検証

正規方程式から、当てはめ値は以下のように計算できます。 \[ \bm{\hat{y}} = \bm{X}\hat{\bm{\beta}} = \bm{X}(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} = \bm{H}\bm{y} \] ただし、\(\bm{H} = \bm{X}(\bm{X}'\bm{X})^{-1}\bm{X}'\)は、\(\bm{\hat{y}}\)(「yハット」)を計算するのに使うので、「ハット行列」と言います。

\(\bm{H}\)の対角成分の値を\(h_{1},\dots,h_{T}\)と表すと、交差検証(CV)統計量は以下を使って計算できます。 \[ \text{CV} = \frac{1}{T}\sum_{t=1}^T [e_{t}/(1-h_{t})]^2 \] ただし、\(e_{t}\)は、\(T\)個の観測値全てにモデルを当てはめて得た残差です。こうすれば、CV統計量を計算する際に、実際に\(T\)個のモデルを一つ一つ当てはめなくて済みます。

予測と区間予測

\(\bm{x}^*\)は予測変数の値を含む行ベクトル(\(\bm{X}\)の一行と同じ様式)として、そこから予測を生成したいとします。予測は以下で得られます。 \[ \hat{y} = \bm{x}^*\hat{\bm{\beta}}=\bm{x}^*(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} \] そして、その分散の推計値は以下のようになります。 \[ \hat\sigma_e^2 \left[1 + \bm{x}^* (\bm{X}'\bm{X})^{-1} (\bm{x}^*)'\right] \] 95%区間予測は、(誤差が正規分布と想定して)以下のように計算できます。 \[ \hat{y} \pm 1.96 \hat{\sigma}_e \sqrt{1 + \bm{x}^* (\bm{X}'\bm{X})^{-1} (\bm{x}^*)'} \] これは、誤差項\(\varepsilon\)からの不確実性と係数推計の不確実性を考慮しています。しかし、\(\bm{x}^*\)にあるであろう誤差は無視しています。ですから、予測変数の将来値が不確実なら、この式を使って計算した区間予測は狭すぎることになります。