7.9 Formulazione matriciale

Avviso: questa è un paragrafo opzionale più avanzato, poiché assume la conoscenza dell’algebra matriciale.

Si ricordi che un modello di regressione multipla può essere scritto nel seguente modo: \[ y_{t} = \beta_{0} + \beta_{1} x_{1,t} + \beta_{2} x_{2,t} + \cdots + \beta_{k} x_{k,t} + \varepsilon_{t} \] dove \(\varepsilon_{t}\) ha media zero e varianza \(\sigma^2\). La precedente equazione esprime la relazione tra un singolo valore della variabile da prevedere e i predittori.

Può essere conveniente riscrivere la precedente espressione in forma matriciale nella quale tutti i valori della variabile da prevedere sono espressi in un’unica equazione. Sia \(\bm{y} = (y_{1},\dots,y_{T})'\), \(\bm{\varepsilon} = (\varepsilon_{1},\dots,\varepsilon_{T})'\), \(\bm{\beta} = (\beta_{0},\dots,\beta_{k})'\) e \[ \bm{X} = \left[ \begin{matrix} 1 & x_{1,1} & x_{2,1} & \dots & x_{k,1}\\ 1 & x_{1,2} & x_{2,2} & \dots & x_{k,2}\\ \vdots& \vdots& \vdots&& \vdots\\ 1 & x_{1,T}& x_{2,T}& \dots& x_{k,T} \end{matrix}\right]. \] Allora \[ \bm{y} = \bm{X}\bm{\beta} + \bm{\varepsilon} \] dove \(\bm{\varepsilon}\) ha media \(\bm{0}\) e varianza \(\sigma^2\bm{I}\). Si noti che la matrice \(\bm{X}\) ha \(T\) righe che riflettono il numero di osservaizoni e \(k+1\) colonne che riflettono l’intercetta che è rappresentata da una colonna di uno più il numero di predittori.

Stima dei minimi quadrati

La stima dei minimi quadrati è ottenuta minimizzando l’espressione \(\bm{\varepsilon}'\bm{\varepsilon} = (\bm{y} - \bm{X}\bm{\beta})'(\bm{y} - \bm{X}\bm{\beta})\). Si può dimostrare che questa quantità può essere minimizzata quando \(\bm{\beta}\) assume il valore \[ \hat{\bm{\beta}} = (\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y}. \] Quest’ultima espressione è solitamente nota come “sistema delle equazioni normali”. Ottenere la stima dei coefficienti richiede l’inversione della matrice \(\bm{X}'\bm{X}\). Se \(\bm{X}\) non è a rango colonna pieno allora la matrice \(\bm{X}'\bm{X}\) è singolare e il modello non può essere stimato. Questo accade, per esempio, se si verifica la trappola delle variabili dummy, ovvero, quando si utilizza un numero di variabili dummy pari al numero di categorie del predittore categoriale, come discusso nel paragrafo 7.4.

La varianza residua è stimata usando \[ \hat{\sigma}_e^2 = \frac{1}{T-k-1}(\bm{y} - \bm{X}\hat{\bm{\beta}})' (\bm{y} - \bm{X}\hat{\bm{\beta}}). \]

Valori stimati e cross validation

Il sistema di equazioni normali comporta che i valori predetti possono essere calcolati usando \[ \bm{\hat{y}} = \bm{X}\hat{\bm{\beta}} = \bm{X}(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} = \bm{H}\bm{y}, \] dove \(\bm{H} = \bm{X}(\bm{X}'\bm{X})^{-1}\bm{X}'\) è nota come “hat-matrix (matrice cappello)” perché è usata per calcolare \(\bm{\hat{y}}\) (“y-hat”).

Se gli elementi diagonali di \(\bm{H}\) sono indicati con \(h_{1},\dots,h_{T}\), allora la statistica di cross validation può essere calcolata usando \[ \text{CV} = \frac{1}{T}\sum_{t=1}^T [e_{t}/(1-h_{t})]^2, \] dove \(e_{t}\) è il vettore dei residui ottenuto stimando il modello utilizzando tutte le \(T\) osservazioni disponibili. Non risulta quindi necessario stimare \(T\) modelli separati per calcolare la statistica CV.

Previsioni e intervalli di previsione

Sia \(\bm{x}^*\) un vettore riga contenente i valori dei predittori (nello stesso formato di \(\bm{X}\)) in corrispondenza dei quali si è interessati ad ottenere una previsione. Allora la previsione è data da \[ \hat{y} = \bm{x}^*\hat{\bm{\beta}}=\bm{x}^*(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y} \] e la corrispondente varianza stimata è data da \[ \hat\sigma_e^2 \left[1 + \bm{x}^* (\bm{X}'\bm{X})^{-1} (\bm{x}^*)'\right]. \] L’intervallo di previsione al 95% può essere calcolato (assumendo errori normalmente distribuiti) come \[ \hat{y} \pm 1.96 \,\hat{\sigma}_e \sqrt{1 + \bm{x}^* (\bm{X}'\bm{X})^{-1} (\bm{x}^*)'}. \] Quest’ultima espressione considera l’incertezza dovuta al termine di errore \(\varepsilon\) e l’incertezza legata alla stima dei coefficienti, ignorando tuttavia qualsiasi errore in \(\bm{x}^*\). Se i valori futuri dei predittori sono soggetti ad incertezza, gli intervalli di previsione calcolati usando quest’ultima espressione risulteranno essere troppo stretti.