7.1 Il modello di regressione lineare

Regressione lineare semplice

Nel caso più semplice, il modello di regressione postula l’esistenza di una relazione lineare tra la variabile da prevedere \(y\) e una singola variabile predittrice \(x\): \[ y_t = \beta_0 + \beta_1 x_t + \varepsilon_t. \] Un esempio di dati artificiali simulati dal precedente modello di regressione è mostrato in figura 7.1. I coefficienti \(\beta_0\) e \(\beta_1\) rappresentano rispettivamente l’intercetta e la pendenza della retta di regressione. L’intercetta \(\beta_0\) rappresenta il valore previsto di \(y\) quando \(x=0\). La pendenza, o coefficiente angolare, \(\beta_1\) rappresenta il cambiamento medio previsto di \(y\) conseguente all’incremento di una unità nella variabile \(x\).

Esempio di dati generati dal modello di regressione lineare semplice.

Figura 7.1: Esempio di dati generati dal modello di regressione lineare semplice.

Si può notare come le osservazioni non giacciono esattamente sulla retta di regressione ma risultano disperse attorno ad essa. Si può pensare che ciascuna osservazione \(y_t\) sia composta di una parte sistematica, o spiegata dal modello, \(\beta_0+\beta_1x_t\), e di un termine causale “errore”, \(\varepsilon_t\). La presenza del termine di “errore” non implica l’esistenza di una inesattezza, ma rappresenta una deviazione dalla retta di regressione sottostante. Questo termine cattura qualsiasi altro fattore che può influenzare \(y_t\) che non sia \(x_t\).

Esempio: Spesa per consumi negli Stati Uniti

La figura 7.2 mostra la serie storica delle variazioni trimestrali (tassi di crescita) della spesa reale per consumi individuali, \(y\), e del reddito reale individuale disponibile, \(x\), per gli Stati Uniti dal primo trimestre 1970 (1970 Q1) al secondo trimestre 2019 (2019 Q2).

us_change %>%
  pivot_longer(c(Consumption, Income), names_to="Series") %>%
  autoplot(value) +
  labs(y = "variazione %", x = "Trimestre")
Tassi di variazione percentuali nella spesa per consumi individuali e del reddito individuale per gli Stati Uniti.

Figura 7.2: Tassi di variazione percentuali nella spesa per consumi individuali e del reddito individuale per gli Stati Uniti.

Lo scatterplot delle variazioni della spesa per consumi e delle variazioni del reddito è mostrato in figura 7.3 unitamente alla retta di regressione stimata

\[ \hat{y}_t=0.54 + 0.27x_t. \] (Si utilizza un cappello sopra la \(y\) per indicare il valore di \(y\) previsto dal modello).

us_change %>%
  ggplot(aes(x = Income, y = Consumption)) +
  labs(y = "Consumption (quarterly % change)",
       x = "Income (quarterly % change)") +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)
Scatterplot delle variazioni trimestrali della spesa per consumi versus le variazioni trimestrali del reddito individuale con sovraimposta la retta di regressione stimata.

Figura 7.3: Scatterplot delle variazioni trimestrali della spesa per consumi versus le variazioni trimestrali del reddito individuale con sovraimposta la retta di regressione stimata.

L’equazione è stimata utilizzando la funzione TSLM():

us_change %>%
  model(TSLM(Consumption ~ Income)) %>%
  report()
#> Series: Consumption 
#> Model: TSLM 
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -2.5824 -0.2778  0.0186  0.3233  1.4223 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept)   0.5445     0.0540   10.08  < 2e-16 ***
#> Income        0.2718     0.0467    5.82  2.4e-08 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 0.591 on 196 degrees of freedom
#> Multiple R-squared: 0.147,   Adjusted R-squared: 0.143
#> F-statistic: 33.8 on 1 and 196 DF, p-value: 2.4e-08

Nel paragrafo 7.2 di discuteranno i dettagli relativi a come la funzione TSLM() calcola i coefficienti.

La retta di regressione stimata ha una pendenza positiva che riflette la relazione positiva tra redditi e consumi. Il coefficiente associato alla pendenza mostra che l’incremento di una unità della variabile \(x\) (l’incremento di un punto percentuale del reddito personale disponibile) comporta in media un incremento di 0.27 unità della variabile \(y\) (un incremento medio di 0.27 punti percentuali nella spesa individuale per consumi). In alternativa, l’equazione stimata mostra che un valore di 1 per \(x\) (l’incremento percentuale nel reddito disponibile individuale) risulta in un valore previsto di \(0.54 + 0.27 \times 1 = 0.82\) per \(y\) (l’incremento percentuale nella spesa per consumi individuale).

L’interpretazione del termine intercetta richiede che il valore \(x=0\) risulti ammissibile. In questo caso, quando \(x=0\) (ovvero, quando non ci sono variazioni nel reddito disponibile individuale dall’ultimo trimestre) il valore previsto di \(y\) è 0.54 (ovvero, un incremento medio nella spesa per consumi individuali di 0.54%). Tuttavia, anche nel caso in cui \(x=0\) non sia ammissibile, l’intercetta rappresenta una parte rilevante del modello. Senza l’inclusione di questo termine, infatti, il coefficiente relativo alla pendenza potrebbe risultare inutilmente distorto. L’intercetta dovrebbe quindi essere sempre inclusa nel modello di regressione al fine di evitare di forzare la retta di regressione stimata ad “attraversare l’origine” degli assi. Nel seguito si assumerà che il termine intercetta sia sempre incluso nel modello.

Regressione lineare multipla

Quando sono presenti due o più predittori, il modello è denominato modello di regressione multipla. La forma generale di un modello di regressione multiplo è

\[\begin{equation} y_t = \beta_{0} + \beta_{1} x_{1,t} + \beta_{2} x_{2,t} + \cdots + \beta_{k} x_{k,t} + \varepsilon_t, \tag{7.1} \end{equation}\]

dove \(y\) rappresenta la variabile da prevedere mentre \(x_{1},\dots,x_{k}\) sono le \(k\) variabili utilizzate come previsori. Ciascuna variabile utilizzata come previsore deve essere numerica. I coefficienti \(\beta_{1},\dots,\beta_{k}\) misurano l’effetto di ciascun previsore al netto dell’effetto di tutti gli altri previsori inclusi nel modello. Si può quindi dire che i coefficienti di regressione misurano l’effetto marginale esercitato da ciascun previsore.

Esempio: spesa per consumi negli Stati Uniti

La figura 7.4 rappresenta le covariate addizionali che potrebbero essere utili a prevedere la spesa per consumi negli Stati Uniti. Questi previsori sono la variazione percentuale trimestrale della produzione industriale e dei risparmi individuali e la variazione trimestrale del tasso di disoccupazione (che è già un tasso percentuale). La costruzione di un modello di regressione multipla può potenzialmente portare a previsioni più accurate dato che ci si aspetta che la spesa per consumi non dipenda esclusivamente dal reddito disponibile ma anche da altri previsori.

us_change %>%
  select(-Consumption, -Income) %>%
  pivot_longer(-Quarter) %>%
  ggplot(aes(Quarter, value, color = name)) +
  geom_line() +
  facet_grid(name ~ ., scales = "free_y") +
  guides(colour = "none") +
  labs(y="variazione %", x = "Trimestre")
Tasso di variazione percentuale trimestrale della produzione industriale e dei risparmi individuali e variazione percentuale del tasso di disoccupazione per gli Stati Uniti nel periodo 1970 Q1 - 2019 Q2.

Figura 7.4: Tasso di variazione percentuale trimestrale della produzione industriale e dei risparmi individuali e variazione percentuale del tasso di disoccupazione per gli Stati Uniti nel periodo 1970 Q1 - 2019 Q2.

La figura 7.5 presenta la matrice dei diagrammi di dispersione (scatterplot matrix) delle cinque variabili. La prima colonna mostra le relazioni tra la variabile da prevedere (consumi) e ciascun previsore. Dagli scatterplot risultano relazioni positive con il reddito e la produzione industriale, e relazioni negative con i risparmi e il tasso di disoccupazione. L’intensità di queste relazioni è rappresentata dai coefficienti di correlazione nella prima riga. I restanti scatterplot e i corrispondenti coefficienti di correlazione mostrano le relazioni tra i predittori.

us_change %>%
  GGally::ggpairs(columns = 2:6)
Matrice di scatterplot della spesa per consumi negli Stati Uniti e i quattro predittori.

Figura 7.5: Matrice di scatterplot della spesa per consumi negli Stati Uniti e i quattro predittori.

Assunzioni

Quando si utilizza un modello di regressione lineare, si stanno implicitamente imponendo delle assunzioni sulle variabili dell’equazione (7.1).

In primo luogo, si assume che il modello sia una ragionevole approssimazione della realtà; ovvero, che la relazione tra la variabile da prevedere e i predittori soddisfi una equazione lineare.

In secondo luogo, si impongono le seguenti assunzioni sugli errori \((\varepsilon_{1},\dots,\varepsilon_{T})\):

  • che questi abbiano media zero; altrimenti, in caso contrario, le previsioni saranno sistematicamente distorte;
  • che questi non siano autocorrelati; altrimenti le previsioni saranno inefficienti, visto che è presente informazione aggiuntiva nei dati che potrebbe essere sfruttata;
  • che questi non siano correlati con gli altri predittori; altrimenti ci sarebbe informazione aggiuntiva che potrebbe essere inclusa nella parte sistematica del modello.

Sarebbe inoltre utile avere termini di errore normalmente distribuiti con varianza costante \(\sigma^2\) al fine di ottenere facilmente intervalli di previsione.

Un’altra ipotesi importante nel modello di regressione lineare è che ciascun previsore \(x\) non è una variabile casuale. Nel caso dello svolgimento di un esperimento controllato in un laboratorio, ad esempio, si potrebbe controllare il valore di ciascuna \(x\) (che, in tal caso, non sarebbe casuale) e osservare il valore risultante per \(y\). Con dati osservazionali (come sono la maggior parte dei dati aziendali e economici), non è possibile controllare il valore di \(x\), ma è possibile semplicemente osservarlo.

Si introdurrà quindi questa come ipotesi nel modello.