7.6 Previsione utilizzando la regressione

È utile ricordare che le previsioni di \(y\) possono essere ottenute utilizzando l’espressione seguente \[ \hat{y_t} = \hat\beta_{0} + \hat\beta_{1} x_{1,t} + \hat\beta_{2} x_{2,t} + \cdots + \hat\beta_{k} x_{k,t}, \] che comprende i coefficienti stimati e ignora l’errore nella equazione di regressione. Inserendo i valori dei predittori \(x_{1,t},\dots,x_{k,t}\) per \(t=1,\dots,T\) l’equazione precedente restituisce i valori predetti di \(y\) (nell’insieme di stima). Quello cui si è interessati qui, è tuttavia la previsione dei valori futuri di \(y\).

Previsioni ex-ante contro previsioni ex-post

Quando si utilizzano modelli di regressione per dati in serie storica, è necessario distinguere tra i diversi tipi di previsione che è possibile produrre, e questa scelta dipende da cosa viene assunto come noto al momento in cui le previsioni sono calcolate.

Previsioni ex-ante sono quelle previsioni ottenute utilizzando solo l’informazione che è disponibile prima. Per esempio, le previsioni ex-ante della percentuale di variazione dei consumi negli Stati Uniti per i trimestri successivi all’ultimo nel campione, sfruttano soltanto l’informazione che era disponibile fino a ed includendo il 2019 Q2. Si tratta di previsioni genuine, fatte utilizzando qualsiasi informazione sia disponibile all’epoca in cui queste vengono prodotte. Quindi, al fine di generare previsioni ex-ante, il modello richiede di disporre delle previsioni dei predittori. Al fine di ottenere queste ultime previsioni, è possibile utilizzare uno dei semplici metodi introdotti nel paragrafo 5.2 o alcuni degli approcci più sofisticati per le serie storiche che saranno discussi nei Capitoli 8 e 9. In alternativa, qualora disponibili, potrebbero essere utilizzate previsioni da altre fonti, quali ad esempio agenzie governative.

Previsioni ex-post sono quelle prodotte utilizzando informazione successiva nei predittori. Per esempio, le previsioni ex-post dei consumi utilizzano le osservazioni effettive dei predittori, una volta che queste risultano disponibili. Queste non sono previsioni genuine, ma talvolta sono utili per studiare il comportamento dei modelli di previsione.

Il modello da cui sono ottenute previsioni ex-post non dovrebbe essere stimato utilizzando dati che provengono dal periodo di previsione. Vale a dire che le previsioni ex-post possono assumere la conoscenza delle variabili predittive (le variabili \(x\)), ma non dovrebbero assumere la conoscenza dei dati che dovrebbero prevedere (la variabile \(y\)).

Una valutazione comparativa delle previsioni ex-ante ed ex-post può aiutare a dividere le sorgenti dell’incertezza della previsione. Questa valutazione comparativa potrà mostrare se gli errori di previsione sono dovuti alla scarsa previsione del predittore o, alternativamente, alla scarsa abilità previsiva del modello.

Esempio: produzione trimestrale di birra in Australia

Normalmente, non è possibile utilizzare le osservazioni effettive future dei predittori nella costruzione delle previsioni ex-ante, perché i loro valori non saranno noti in anticipo. Tuttavia, i particolari predittori introdotti nel paragrafo 7.4 sono tutti noti in anticipo perché sono basati su variabili di calendario (ad es. variabili dummy stagionali o indicatori di feste nazionali), oppure funzioni deterministiche del tempo (ad es. trend temporale). In questi casi, non ci sono differenze tra previsioni ex-ante e previsioni ex-post.

recent_production <- aus_production %>%
  filter(year(Quarter) >= 1992)
fit_beer <- recent_production %>%
  model(TSLM(Beer ~ trend() + season()))
fc_beer <- forecast(fit_beer)
fc_beer %>%
  autoplot(recent_production) +
  labs(
    title = "Previsione della produzione di birra utilizzando la regressione",
    y = "megalitri", x = "trimestre"
  )
Previsioni del modello di regressione impiegato per la previsione della produzione di birra. La regione più scura mostra gli intervalli di previsione all’80% mentre la regione sfumata più chiara mostra gli intervalli di previsione al 95%.

Figura 7.17: Previsioni del modello di regressione impiegato per la previsione della produzione di birra. La regione più scura mostra gli intervalli di previsione all’80% mentre la regione sfumata più chiara mostra gli intervalli di previsione al 95%.

Previsioni basate sulla generazione di scenari

In questa configurazione, colui che fa le previsioni assume alcuni scenari possibili per le variabili usate come predittori di interesse. Ad esempio, un manager potrebbe essere interessato alla comparazione della variazione prevista nei consumi quando si assume una crescita costante del 1% e dello 0.5% rispettivamente per il reddito e i risparmi e nessuna variazione nel tasso di disoccupazione, contro l’ipotesi alternativa di un declino dell’1% e dello 0.5%, per ciascuno dei quattro trimestri che seguono la fine del campione. Le previsioni risultanti sono calcolate nel codice sottostante e sono mostrate in figura 7.18. È utile evidenziare che gli intervalli di previsione per le previsioni basate sulla generazione di scenari non includono l’incertezza associata con i futuri valori dei predittori. Queste assumono che i valori dei predittori siano conosciuti in anticipo.

fit_consBest <- us_change %>%
  model(
    lm = TSLM(Consumption ~ Income + Savings + Unemployment)
  )
future_scenarios <- scenarios(
  Increase = new_data(us_change, 4) %>%
    mutate(Income=1, Savings=0.5, Unemployment=0),
  Decrease = new_data(us_change, 4) %>%
    mutate(Income=-1, Savings=-0.5, Unemployment=0),
  names_to = "Scenario")

fc <- forecast(fit_consBest, new_data = future_scenarios)
us_change %>%
  autoplot(Consumption) +
  autolayer(fc) +
  labs(title = "Consumi negli Stati Uniti", y = "variazione %")
Previsione delle variazioni percentuali nelle spese per consumi personali negli Stati Uniti nel caso dell'utilizzo di previsioni basate su scenari.

Figura 7.18: Previsione delle variazioni percentuali nelle spese per consumi personali negli Stati Uniti nel caso dell’utilizzo di previsioni basate su scenari.

Costruire un modello di regressione previsivo

Il vantaggio maggiore derivante dall’impiego dei modelli di regressione è che questi possono essere utilizzati per comprendere importanti relazioni tra la previsione della variabile di interesse e le variabili utilizzate come predittori. Tuttavia, per le previsioni ex-ante, questi modelli richiedono la conoscenza dei valori futuri di ciascun predittore, valori che possono essere difficili da ottenere. Se prevedere ciascuna variabile è troppo difficile, è possibile utilizzare in alternativa previsioni basate su scenari, al fine di ottenere specifici valori futuri di ciascun regressore considerato.

Una formulazione alternativa consiste nell’utilizzare come predittori le variabili ritardate. Assumendo di essere interessati alla generazione di previsioni \(h\)-passi in avanti, si scriverà \[ y_{t+h}=\beta_0+\beta_1x_{1,t}+\dots+\beta_kx_{k,t}+\varepsilon_{t+h} \]

per \(h=1,2\dots\). L’insieme di previsione è formato dai valori delle variabili \(x\) che sono osservati \(h\) periodi di tempo prima di osservare \(y\). Quindi, quando il modello stimato è proiettato nel futuro, vale a dire per osservazioni successive alla fine del campione \(T\), allora tutti i valori dei predittori sono disponibili.

L’inclusione dei valori ritardati dei predittori non solo rende il modello immediatamente operativo per la generazione della previsione, ma lo rende anche intuitivamente attraente. Ad esempio, l’effetto di un cambiamento di politica con l’obiettivo di incrementare la produzione può non sortire un effetto immediato sulla spesa per consumi. È più verosimile invece che questo effetto si produca con un certo ritardo. Si parlerà di questo aspetto nel paragrafo 7.4 quando verranno introdotti brevemente i ritardi distribuiti come predittori. Le diverse direzioni alternative per generalizzare i modelli di regressione al fine di incorporare la ricca dinamica osservata nelle serie storiche saranno discussi nel paragrafo 10.

Intervalli di previsione

Gli intervalli di previsione al 95% e all’80% sono inclusi in figura 7.18, insieme a ciascuna previsione per la variazione nei consumi. La formulazione generale per il calcolo degli intervalli di previsione nei modelli di regressione multipla è presentata nel paragrafo 7.9. Siccome questa richiede la conoscenza di concetti avanzati di algebra matriciale, si presenterà in questo paragrafo solo il caso del calcolo degli intervalli di previsione per un modello di regressione semplice, nel qual caso la previsione può esssere calcolata utilizzando l’equazione \[ \hat{y}=\hat{\beta}_0+\hat{\beta}_1x. \] Assumendo che gli errori di regressione siano distribuiti normalmente, un intervallo di previsione approssimato al 95% associato alla previsione precedente è dato da \[\begin{equation} \hat{y} \pm 1.96 \, \hat{\sigma}_e\sqrt{1+\frac{1}{T}+\frac{(x-\bar{x})^2}{(T-1)s_x^2}}, \tag{7.4} \end{equation}\] dove \(T\) è il numero di osservazioni totale, \(\bar{x}\) è la media dei valori osservati di \(x\), \(s_x\) è la deviazione standard dei valori osservati di \(x\) e \(\hat{\sigma}_e\) è l’errore standard della regressione indicata nell’equazione (7.3). In maniera simile, è possibile ottenere intervalli di previsione all’80% sostituendo 1.96 a 1.28. Altri intervalli di previsione possono essere ottenuti sostituendo 1.96 con il valore appropriato fornito in tabella 5.1. Se si utilizza il package fable per ottenere intervalli di previsione, vengono forniti calcoli più precisi (specialmente per piccoli valori di \(T\)) rispetto a quelli forniti dall’equazione (7.4).

L’equazione (7.4) mostra che l’intervallo di previsione è più ampio quando \(x\) è lontano da \(\bar{x}\). In altri termini si è più certi sulle previsioni quando si considerano valori dei predittori più vicini alla loro media campionaria.

Esempio

La retta di regressione lineare semplice stimata nell’esempio sui consumi negli Stati Uniti è \[ \hat{y}_t=0.54 + 0.27x_t. \]

Assumendo che per i prossimi quattro trimestri il reddito individuale cresca di \(\bar{x}=0.73\)% rispetto al valore della sua media storica, i consumi sono previsti in crescita dello \(0.74\)% e i corrispondenti intervalli di previsione all’80% ed al 95% sono rispettivamente \([-0.02, 1.5]\) e \([-0.42, 1.9]\), (calcolati usando il software R). Se si assume invece un incremento estremo del 12% nel reddito, allora gli intervalli di previsione saranno considerevolmente più ampi, come mostrato in figura 7.19.

fit_cons <- us_change %>%
  model(TSLM(Consumption ~ Income))
new_cons <- scenarios(
  "Average increase" = new_data(us_change, 4) %>%
    mutate(Income = mean(us_change$Income)),
  "Extreme increase" = new_data(us_change, 4) %>%
    mutate(Income = 12),
  names_to = "Scenario"
)
fcast <- forecast(fit_cons, new_cons)

us_change %>%
  autoplot(Consumption) +
  autolayer(fcast) +
  labs(title = "Consumi negli Stati Uniti", y = "variazione %")
Intervalli di previsione nel caso in cui il reddito cresca dello \(0.73\)% rispetto al valore della media storica, contro quelli ottenuti nel caso di un incremento estremo del 12%.

Figura 7.19: Intervalli di previsione nel caso in cui il reddito cresca dello \(0.73\)% rispetto al valore della media storica, contro quelli ottenuti nel caso di un incremento estremo del 12%.