5.7 행렬 정식화

주의: 이 절은 좀 더 어렵기 때문에 선택사항으로 남겨둡니다. 이 절에서는 독자가 행렬 대수(matrix algebra) 지식을 가지고 있다는 것을 가정하고 있습니다

다음과 같이 쓸 수 있는 다중 회귀 모델로 돌아가봅시다. \[ y_{t} = \beta_{0} + \beta_{1} x_{1,t} + \beta_{2} x_{2,t} + \cdots + \beta_{k} x_{k,t} + \varepsilon_{t} \] 여기에서 \(\varepsilon_{t}\)은 평균이 0이고 분산이 \(\sigma^2\)입니다. 이것은 목표 예상변수(forecast variable)와 예측변수(predictor variable) 사이의 관계를 나타냅니다.

이것을 하나의 식에 주어지는 목표 예상변수(forecast variable)의 값을 나타내는 행렬 형태로 쓰면 편리할 수 있습니다. 다음과 같이 둡시다. \(\bm{y} = (y_{1},\dots,y_{T})'\), \(\bm{\varepsilon} = (\varepsilon_{1},\dots,\varepsilon_{T})'\), \(\bm{\beta} = (\beta_{0},\dots,\beta_{k})'\) 그리고 \[ \bm{X} = \left[ \begin{matrix} 1 & x_{1,1} & x_{2,1} & \dots & x_{k,1}\\ 1 & x_{1,2} & x_{2,2} & \dots & x_{k,2}\\ \vdots& \vdots& \vdots&& \vdots\\ 1 & x_{1,T}& x_{2,T}& \dots& x_{k,T} \end{matrix}\right]. \] 그러면 아래와 같은 식을 얻습니다. \[ \bm{y} = \bm{X}\bm{\beta} + \bm{\varepsilon}. \] 여기에서 \(\bm{\varepsilon}\)은 평균이 \(\bm{0}\)이고 분산이 \(\sigma^2\bm{I}\)입니다. 행렬 \(\bm{X}\)에는 관측값의 수를 나타내는 \(T\) 행이 있고, 예측변수(predictor variable)의 수에 1을 더한 열로 표현되는 절편을 나타내는 \(k+1\) 열이 있습니다.

최소 제곱 추정

다음과 같은 표현식을 최소화하여 최소 제곱 추정치를 얻습니다. \(\bm{\varepsilon}'\bm{\varepsilon} = (\bm{y} - \bm{X}\bm{\beta})'(\bm{y} - \bm{X}\bm{\beta})\). \(\bm{\beta}\)가 아래와 같은 값을 가질 때 \[ \hat{\bm{\beta}} = (\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} \] 위의 표현식이 최소가 되는 것을 보일 수 있습니다. 이것은 때때로 “정규식(normal equation)”이라고 알려져 있습니다. 추정된 계수에는 역행렬 \(\bm{X}'\bm{X}\)이 필요합니다. 만약에 \(\bm{X}\)가 전체 열 순위(full column rank)가 아니면, 행렬 \(\bm{X}'\bm{X}\)은 단수(singular)이며 모델을 추정할 수 없습니다. 예를 들면, 이러한 상황은 즉, 5.4 절에서 다룬 것처럼 범주형 예측변수의 범주가 있기 때문에 같은 수의 가변수를 가지고 “가변수 함정(dummy variable trap)”에 빠졌을 때 나타날 것입니다.

아래의 식을 이용하여 잔차(residual) 분산을 추정합니다. \[ \hat{\sigma}_e^2 = \frac{1}{T-k-1}(\bm{y} - \bm{X}\hat{\bm{\beta}})' (\bm{y} - \bm{X}\hat{\bm{\beta}}). \]

적합값과 교차검증

정규식은 \[ \bm{\hat{y}} = \bm{X}\hat{\bm{\beta}} = \bm{X}(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} = \bm{H}\bm{y}, \] 을 이용하여, 적합값을 계산할 수 있다는 것을 나타냅니다. 여기에서 \(\bm{H} = \bm{X}(\bm{X}'\bm{X})^{-1}\bm{X}'\)\(\bm{\hat{y}}\)(“y-모자(y-hat)”)을 계산할 때 사용되기 때문에 “모자-행렬(hat-matrix)”로 알려져 있습니다.

\(\bm{H}\)의 대각 성분 값을 \(h_{1},\dots,h_{T}\)로 쓰면, 아래와 같이 교차검증(cross-validation) 통계를 계산할 수 있습니다. \[ \text{CV} = \frac{1}{T}\sum_{t=1}^T [e_{t}/(1-h_{t})]^2, \] 여기에서 \(e_{t}\)\(T\)개의 모든 관측값에 모델을 맞춘 것으로부터 얻은 잔차입니다. 따라서, CV 통계를 계산할 때 \(T\)개의 나뉜 모델을 실제로 맞출 필요가 없습니다.

예측값과 예측구간

\(\bm{x}^*\)을 예측값을 내려는 예측변수(predictor variable)의 값을 포함하는 행 벡터로 둡시다(\(\bm{X}\)와 같은 형태). 그러면 예측값은 다음과 같이 \[ \hat{y} = \bm{x}^*\hat{\bm{\beta}}=\bm{x}^*(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{Y} \] 로 주어지고, 추정된 분산은 \[ \hat\sigma_e^2 \left[1 + \bm{x}^* (\bm{X}'\bm{X})^{-1} (\bm{x}^*)'\right]. \] 로 주어집니다. 95% 예측구간은 (오차가 정규 분포를 따른다고 가정하고) 다음과 같이 \[ \hat{y} \pm 1.96 \hat{\sigma}_e \sqrt{1 + \bm{x}^* (\bm{X}'\bm{X})^{-1} (\bm{x}^*)'}. \] 로 계산할 수 있습니다. 이 식은 오차 항 \(\varepsilon\) 때문에 생기는 불확실성과 계수 추정값의 불확실성을 고려합니다. 하지만, \(\bm{x}^*\)에 있는 모든 오차를 무시합니다. 따라서 예측변수(predictor variable)의 미래값이 확실하지 않을 때, 이 표현식으로 계산한 예측구간은 너무 좁을 것입니다.