7.2 Stimatore dei minimi quadrati

Nella pratica, ovviamente, si ha a disposizione una collezione di osservazioni ma non si conosce il valore dei coefficienti \(\beta_0,\beta_1, \dots, \beta_k\). Questi andranno stimati a partire dai dati.

Il principio dei minimi quadrati fornisce un criterio effettivo per scegliere i coefficienti minimizzando la somma dei quadrati dei termini di errore. Si sceglieranno cioè i valori di \(\beta_0, \beta_1, \dots, \beta_k\) che minimizzano

\[ \sum_{t=1}^T \varepsilon_t^2 = \sum_{t=1}^T (y_t - \beta_{0} - \beta_{1} x_{1,t} - \beta_{2} x_{2,t} - \cdots - \beta_{k} x_{k,t})^2. \] Questo metodo di stima è chiamato dei minimi quadrati perché corrisponde al valore che rende minima la somma dei quadrati degli errori. La procedura che consiste nel determinare la migliore stima dei coefficienti è spesso chiamata “fitting” (adattamento) del modello ai dati, o, in alternativa, “apprendimento” o “addestramento” del modello. La retta rappresentata in figura 7.3 è stata ottenuta in questo modo.

Per riferirsi ai coefficienti stimati, si utilizzerà la notazione \(\hat\beta_0, \dots, \hat\beta_k\). Le equazioni per ottenere questi coefficienti stimati saranno fornite nel paragrafo 7.9.

La funzione TSLM() adatta un modello di regressione lineare a dei dati in serie storica. Tale funzione risulta simile alla funzione lm() che è ampiamente utilizzata nella stima dei modelli lineari, ma TSLM() dispone di funzionalità aggiuntive che permettono di maneggiare dati in serie storica.

Esempio: spesa per consumi negli Stati Uniti

Un modello di regressione lineare multipla per la serie dei consumi negli Stati Uniti è

\[ y_t=\beta_0 + \beta_1 x_{1,t}+ \beta_2 x_{2,t}+ \beta_3 x_{3,t}+ \beta_4 x_{4,t}+\varepsilon_t, \] dove \(y\) rappresenta il tasso di variazione percentuale della spesa reale per consumi individuali, \(x_1\) rappresenta la variazione percentuale del reddito individuale reale disponibile, \(x_2\) il tasso di variazione percentuale della produzione industriale, \(x_3\) il tasso di variazione percentuale del risparmio individuale, \(x_4\) è la variazione del tasso di disoccupazione.

L’output seguente fornisce informazioni sul modello stimato. La prima colonna della sezione Coefficients fornisce la stima di ciascun coefficiente \(\beta\), mentre la seconda colonna restituisce il suo errore standard (ovvero, la deviazione standard che può essere ottenuta dalla stima ripetuta di \(\beta\) su dati simili). L’errore standard fornisce la misura dell’incertezza del coefficiente \(\beta\) stimato.

fit_consMR <- us_change %>%
  model(tslm = TSLM(Consumption ~ Income + Production +
                                    Unemployment + Savings))
report(fit_consMR)
#> Series: Consumption 
#> Model: TSLM 
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -0.9055 -0.1582 -0.0361  0.1362  1.1547 
#> 
#> Coefficients:
#>              Estimate Std. Error t value Pr(>|t|)    
#> (Intercept)   0.25311    0.03447    7.34  5.7e-12 ***
#> Income        0.74058    0.04012   18.46  < 2e-16 ***
#> Production    0.04717    0.02314    2.04    0.043 *  
#> Unemployment -0.17469    0.09551   -1.83    0.069 .  
#> Savings      -0.05289    0.00292  -18.09  < 2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 0.31 on 193 degrees of freedom
#> Multiple R-squared: 0.768,   Adjusted R-squared: 0.763
#> F-statistic:  160 on 4 and 193 DF, p-value: <2e-16

Le ultime due colonne risultano di scarso interesse ai fini previsivi. Il “t value” è il rapporto tra il coefficiente \(\beta\) stimato e il suo errore standard, mentre l’ultima colonna fornisce il p-value: la probabilità che un coefficiente \(\beta\) stimato sia almeno altrettanto grande rispetto al valore attuale nel caso in cui non ci sia nessuna relazione effettiva tra il consumo e il predittore associato al coefficiente considerato. Quest’utima informazione risulta utile per valutare l’effetto di ciascun predittore, ma non risulta essere particolarmente utile per finalità previsive.

Valori stimati

Le previsioni di \(y\) possono essere ottenute utilizzando i coefficienti stimati nell’equazione di regressione fissando al valore zero il termine di errore. In generale si scrive, \[\begin{equation} \hat{y}_t = \hat\beta_{0} + \hat\beta_{1} x_{1,t} + \hat\beta_{2} x_{2,t} + \cdots + \hat\beta_{k} x_{k,t}. \tag{7.2} \end{equation}\] Inserendo i valori di \(x_{1,t},\dots,x_{k,t}\) for \(t=1,\dots,T\), si otterranno le previsioni di \(y_t\) sull’insieme di stima, cui si farà riferimento con il termine di valori stimati o predetti. Si noti che queste ultime rappresentano le previsioni dei dati utilizzati in fase di stima del modello, e non previsioni genuine di nuove osservazioni di \(y\).

I grafici seguenti confrontano i valori reali con quelli stimati per la serie storica della variazione percentuale della spesa per consumi negli Stati Uniti. Il grafico temporale rappresentato in figura 7.6 mostra che i valori stimati si adattano fedelmente ai valori osservati. Questo risultato è confermato dalla forte relazione positiva mostrata nello scatterplot rappresentato in figura 7.7.

augment(fit_consMR) %>%
  ggplot(aes(x = Quarter)) +
  geom_line(aes(y = Consumption, colour = "Data")) +
  geom_line(aes(y = .fitted, colour = "Fitted")) +
  labs(y = NULL,
    title = "Variazione percentuale nella spesa per consumi negli Stati Uniti"
  ) +
  scale_colour_manual(values=c(Data="black",Fitted="#D55E00")) +
  guides(colour = guide_legend(title = NULL))
Grafico della serie storica dei valori reali e previsti della spesa per consumi negli Stati Uniti.

Figura 7.6: Grafico della serie storica dei valori reali e previsti della spesa per consumi negli Stati Uniti.

augment(fit_consMR) %>%
  ggplot(aes(x = Consumption, y = .fitted)) +
  geom_point() +
  labs(
    y = "Stime (valori predetti)",
    x = "Dati (valori osservati)",
    title = "Variazione percentuale nella spesa per consumi negli Stati Uniti"
  ) +
  geom_abline(intercept = 0, slope = 1)
Valori reali contro valori previsti della spesa prevista per consumi negli Stati Uniti.

Figura 7.7: Valori reali contro valori previsti della spesa prevista per consumi negli Stati Uniti.

Bontà di adattamento (goodness-of-fit)

Un modo comune per riassumere quanto bene un modello di regressione lineare si adatta ai dati è quello di utilizzare il coefficiente di determinazione lineare \(R^2\). Questo coefficiente può essere calcolato come il quadrato del coefficiente di correlazione tra i valori osservati della \(y\) e i corrispondenti valori previsti \(\hat{y}\). Alternativamente, il coeffciente di determinazione lineare può essere calcolato nel seguente modo, \[ R^2 = \frac{\sum(\hat{y}_{t} - \bar{y})^2}{\sum(y_{t}-\bar{y})^2}, \] dove l’indice della sommatoria varia su tutte le osservazioni. Il coefficiente di determinazione lineare riflette quindi la proporzione di variazione della variabile prevista che è imputabile (o spiegata) al modello di regressione.

Nel modello di regressione lineare semplice, il valore del coefficiente \(R^2\) coincide anche con il quadrato del coeffciente di correlazione semplice tra \(y\) e \(x\) (a condizione che l’intercetta sia stata inclusa nel modello).

Se le previsioni sono vicine ai valori osservati, ci si può aspettare che il coefficiente di determinazione lineare \(R^2\) sia vicino al valore 1. D’altra parte, se le previsioni non manifestassero alcuna relazione con i valori osservati, allora il coefficiente di determinazione lineare sarebbe \(R^2=0\) (assumendo la presenza dell’intercetta). In tutti i casi, il coefficiente di determinazione lineare si trova tra 0 e 1.

Il coefficiente di determinazione lineare è usato di frequente, e spesso in maniera non corretta, in previsione. Il valore del coefficiente \(R^2\) non decresce quando si aggiungono dei predittori addizionali al modello e questo fatto può causare sovra-adattamento del modello. Non esistono regole generali che indichino quale dovrebbe essere un valore buono o accettabile per il coefficiente \(R^2\), e i valori tipicamente utilizzati di \(R^2\) dipendono dalla tipologia di dati utilizzati. La validazione delle abilità previsive di un modello su un dataset di verifica (campione test) risulta una pratica che produce risultati tipicamente migliori di quella consitente nel calcolare il coefficiente di determinazione lineare \(R^2\) sul campione utilizzato nella stima.

Esempio: spesa per consumi negli Stati Uniti

La figura 7.7 rappresenta graficamente i valori osservati della spesa contro i corrispondenti valori stimati. La correlazione tra queste variabili è \(r=0.877\), da cui \(R^2= 0.768\) (vedi output precedente). In questo caso il modello fa un eccellente lavoro poiché spiega il 76.8% della variabilità dei dati del consumo. Si confronti questo valore con il valore $R^2 =$0.15 ottenuto usando la regressione semplice sugli stessi dati nel paragrafo 7.1. L’aggiunta dei tre regressori addizionali ha consentito di spiegare molta variabilità in più dei dati del consumo.

Errore standard della regressione

Un’altra misura della bontà di adattamento dei valori stimati dal modello ai dati è rappresentato dalla deviazione standard dei residui, che è spesso indicata con “errore standard dei residui”. La deviazione standard dei residui è riportata nell’output seguente con il valore 0.31.

La deviazione standard dei residui è calcolata utilizzando \[\begin{equation} \hat{\sigma}_e=\sqrt{\frac{1}{T-k-1}\sum_{t=1}^{T}{e_t^2}}, \tag{7.3} \end{equation}\] dove \(k\) rappresenta il numero di predittori utilizzati nel modello. Si noti che il numeratore è stato diviso per \(T-k-1\) perché sono stati stimati \(k+1\) parametri (l’intercetta e un coefficiente per ciascun predittore) nel calcolo dei residui.

L’errore standard è legato all’ampiezza dell’errore medio prodotto dal modello. Si può infatti comparare questo errore con quello ottenuto impiegando la media campionaria di \(y\) o con la deviazione standard di \(y\) al fine di avere una prospettiva per giudicare l’accuratezza del modello.

L’errore standard verrà utilizzato per generare intervalli di previsione, come discusso nel paragrafo 7.6.