5.7 矩阵方程

注意:此部分为高阶部分,我们假设你已经学习过了基础的线性代数知识。

如之前章节所述,多元线性回归模型可被写为: \[ y_{t} = \beta_{0} + \beta_{1} x_{1,t} + \beta_{2} x_{2,t} + \cdots + \beta_{k} x_{k,t} + \varepsilon_{t} \] 其中,\(\varepsilon_{t}\) 的均值为0,方差为 \(\sigma^2\)。可以表现出单个预测变量和被预测变量之间的关系。

将上式写为矩阵形式,可以很方便的将预测变量的所有值在一个式子中体现。令: \(\bm{y} = (y_{1},\dots,y_{T})'\)\(\bm{\varepsilon} = (\varepsilon_{1},\dots,\varepsilon_{T})'\)\(\bm{\beta} = (\beta_{0},\dots,\beta_{k})'\)\[ \bm{X} = \left[ \begin{matrix} 1 & x_{1,1} & x_{2,1} & \dots & x_{k,1}\\ 1 & x_{1,2} & x_{2,2} & \dots & x_{k,2}\\ \vdots& \vdots& \vdots&& \vdots\\ 1 & x_{1,T}& x_{2,T}& \dots& x_{k,T} \end{matrix}\right]. \] 即: \[ \bm{y} = \bm{X}\bm{\beta} + \bm{\varepsilon}. \] 其中, \(\bm{\varepsilon}\) 的均值为0,方差为 \(\sigma^2\bm{I}\) 。矩阵 \(\bm{X}\)\(T\) 行,对应着 \(T\) 个观测值; \(k+1\) 列对应着 \(k\) 个预测变量和一个截距项。

最小二乘估计

最小二乘估计的核心思想为最小化 \(\bm{\varepsilon}'\bm{\varepsilon} = (\bm{y} - \bm{X}\bm{\beta})'(\bm{y} - \bm{X}\bm{\beta})\) 。可以证明当 \(\bm{\beta}\) 取以下值时,上式取得最小值。 \[ \hat{\bm{\beta}} = (\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} \] 该表达式也被称为“正规方程”。若想得到系数的估计值,则需计算出 \(\bm{X}'\bm{X}\) 。当矩阵 \(\bm{X}\) 不是列满秩矩阵时, \(\bm{X}'\bm{X}\) 是奇异矩阵,此时模型不可估计。例如,当模型引入的虚拟变量个数等于分类预测变量的类别数时,会产生虚拟变量陷阱,此时模型不可估计。

模型残差的方差通过下式估计: \[ \hat{\sigma}_e^2 = \frac{1}{T-k-1}(\bm{y} - \bm{X}\hat{\bm{\beta}})' (\bm{y} - \bm{X}\hat{\bm{\beta}}). \]

拟合值和交叉验证

通过正规方程可知,拟合值可通过下式计算: \[ \bm{\hat{y}} = \bm{X}\hat{\bm{\beta}} = \bm{X}(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} = \bm{H}\bm{y}, \] 其中,\(\bm{H} = \bm{X}(\bm{X}'\bm{X})^{-1}\bm{X}'\) 是系数矩阵,可用来估计 \(y\) 的拟合值 \(\bm{\hat{y}}\)

如果采用 \(h_{1},\dots,h_{T}\) 来表示矩阵 \(\bm{H}\) 对角线元素的值,那么交叉验证统计量可通过下式计算: \[ \text{CV} = \frac{1}{T}\sum_{t=1}^T [e_{t}/(1-h_{t})]^2, \] 其中, \(e_{t}\) 是模型对所有 \(T\) 个观测值的拟合值的残差和。因此,在计算 CV 统计量时,没必要拟合出所有值再计算残差,可通过上式计算。

预测值和预测区间

\(\bm{x}^*\) 为一与 \(\bm{X}\) 格式相同的行向量。则该点处的预测值为: \[ \hat{y} = \bm{x}^*\hat{\bm{\beta}}=\bm{x}^*(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{Y} \] 它的估计方差为: \[ \hat\sigma_e^2 \left[1 + \bm{x}^* (\bm{X}'\bm{X})^{-1} (\bm{x}^*)'\right]. \] 95%的预测区间为(假设残差服从标准正态分布): \[ \hat{y} \pm 1.96 \hat{\sigma}_e \sqrt{1 + \bm{x}^* (\bm{X}'\bm{X})^{-1} (\bm{x}^*)'}. \] 这考虑了由于误差项 \(\varepsilon\) 和系数估计中的不确定性引起的不确定性,但是并未考虑 \(\bm{x}^*\) 的误差。因此,如果预测变量的未来值不确定时,应放宽预测区间。