12.3 I modelli VAR

Una limitazione dei modelli che abbiamo considerato finora è che impongono una relazione unidirezionale — la variabile di previsione è influenzata dalle variabili predittrici, ma non viceversa. Tuttavia, ci sono molti casi in cui dovrebbe essere permesso anche il contrario — dove tutte le variabili si influenzano a vicenda. Nella sezione 10.2, le variazioni della spesa per consumi personali (\(C_t\)) sono state previste in base alle variazioni del reddito personale disponibile (\(I_t\)). Tuttavia, in questo caso una relazione bidirezionale può essere più adatta: un aumento di \(I_t\) porterà ad un aumento di \(C_t\) e viceversa.

Un esempio di questa situazione si è verificato in Australia durante la crisi finanziaria globale del 2008–2009. Il governo australiano ha emesso pacchetti di stimolo che includevano pagamenti in contanti nel dicembre 2008, giusto in tempo per le spese natalizie. Come risultato, i rivenditori hanno registrato forti vendite e l’economia è stata stimolata. Di conseguenza, i redditi sono aumentati.

Tali relazioni di feedback sono consentite nel quadro dei modelli autoregressivi vettoriali (VAR). In questo quadro, tutte le variabili sono trattate simmetricamente. Sono tutte modellate come se si influenzassero a vicenda allo stesso modo. In una terminologia più formale, tutte le variabili sono ora trattate come “endogene”. Per rappresentare tutto ciò, cambiamo la notazione e scriviamo tutte le variabili come \(y\)s: \(y_{1,t}\) denota la \(t\)-esima osservazione della variabile \(y_1\), \(y_{2,t}\) denota la \(t\)esima osservazione della variabile \(y_2\), e così via.

Un modello VAR è una generalizzazione del modello autoregressivo univariato per la previsione di un vettore di serie temporali.23. Comprende un’equazione per ogni variabile del sistema. Il lato destro di ogni equazione include una costante e i ritardi di tutte le variabili del sistema. Per mantenerlo semplice, considereremo un VAR bivariato con un ritardo. Scriviamo un modello VAR(1) a 2 dimensioni come \[\begin{align} y_{1,t} &= c_1+\phi _{11,1}y_{1,t-1}+\phi _{12,1}y_{2,t-1}+\varepsilon_{1,t} \tag{12.1}\\ y_{2,t} &= c_2+\phi _{21,1}y_{1,t-1}+\phi _{22,1}y_{2,t-1}+\varepsilon_{2,t}, \tag{12.2} \end{align}\] dove \(\varepsilon_{1,t}\) e \(\varepsilon_{2,t}\) sono processi rumore bianco che possono essere contemporaneamente correlati. Il coefficiente \(\phi_{ii,\ell}\) cattura l’influenza del \(\ell\)-simo ritardo della variabile \(y_i\) su se stessa, mentre il coefficiente \(\phi_{ij,\ell}\) cattura l’influenza del \(\ell\)-esimo ritardo della variabile \(y_j\) su \(y_i\).

Se le serie sono stazionarie, le prevediamo adattando direttamente un VAR ai dati (noto come “VAR nei livelli”). Se le serie non sono stazionarie, prendiamo le differenze dei dati per renderli stazionari, quindi adattiamo un modello VAR (noto come “VAR nelle differenze”). In entrambi i casi, i modelli sono stimati equazione per equazione usando il principio dei minimi quadrati. Per ogni equazione, i parametri sono stimati minimizzando la somma dei quadrati di \(\varepsilon_{i,t}\).

L’altra possibilità, che va oltre lo scopo di questo libro e che quindi non esploriamo qui, è che le serie possano essere non stazionarie ma cointegrate, il che significa che esiste una combinazione lineare di esse che è stazionaria. In questo caso, si dovrebbe includere una specifica VAR che includa un meccanismo di correzione degli errori (di solito indicato come un modello di correzione degli errori vettoriale), e si dovrebbero usare metodi di stima alternativi alla stima dei minimi quadrati.24

Le previsioni sono generate da un VAR in modo ricorsivo. Il VAR genera previsioni per ogni variabile inclusa nel sistema. Per illustrare il processo, supponiamo di aver stimato il modello VAR(1) bidimensionale descritto nelle equazioni (12.1)(12.2), per tutte le osservazioni fino al tempo \(T\). Quindi le previsioni un-passo-avanti sono generate da \[\begin{align*} \hat y_{1,T+1|T} &=\hat{c}_1+\hat\phi_{11,1}y_{1,T}+\hat\phi_{12,1}y_{2,T} \\ \hat y_{2,T+1|T} &=\hat{c}_2+\hat\phi _{21,1}y_{1,T}+\hat\phi_{22,1}y_{2,T}. \end{align*}\] This is the same form as (12.1)(12.2), except that the errors have been set to zero and parameters have been replaced with their estimates. For \(h=2\), the forecasts are given by \[\begin{align*} \hat y_{1,T+2|T} &=\hat{c}_1+\hat\phi_{11,1}\hat y_{1,T+1|T}+\hat\phi_{12,1}\hat y_{2,T+1|T}\\ \hat y_{2,T+2|T}&=\hat{c}_2+\hat\phi_{21,1}\hat y_{1,T+1|T}+\hat\phi_{22,1}\hat y_{2,T+1|T}. \end{align*}\] Di nuovo, questa è la stessa forma di (12.1)(12.2), eccetto che gli errori sono stati fissati pari a zero, i parametri sono stati sostituiti con le loro stime, e i valori ignoti di \(y_1\) e \(y_2\) sono stati sostituiti con le loro previsioni. Il processo può essere iterato in questo modo per tutti i periodi futuri.

Ci sono due decisioni da prendere quando si usa un VAR per prevedere, cioè quante variabili (indicate con \(K\)) e quanti ritardi (indicati con \(p\)) devono essere inclusi nel sistema. Il numero di coefficienti da stimare in un VAR è uguale a \(K+pK^2\) (o \(1+pK\) per equazione). Per esempio, per un VAR con \(K=5\) variabili e \(p=3\) ritardi, ci sono 16 coefficienti per equazione, per un totale di 80 coefficienti da stimare. Più coefficienti devono essere stimati, più grande è l’errore di stima che entra nella previsione.

In pratica, è consuetudine mantenere \(K\) piccolo e includere solo le variabili che sono correlate tra loro, e quindi utili per la previsione. I criteri di informazione sono comunemente usati per selezionare il numero di ritardi da includere. Bisogna fare attenzione quando si usa l’AICc perché tende a scegliere un gran numero di ritardi; invece, per i modelli VAR, si usa spesso il BICindex{BIC}. Una versione più sofisticata del modello è il “VAR sparso” (dove molti coefficienti sono impostati a zero); un altro approccio è quello di utilizzare la “stima di restringimento” (dove i coefficienti sono più piccoli).

Una critica avanzata ai VAR è che sono ateoretici; cioè, non sono costruiti su qualche teoria economica che impone una struttura teorica alle equazioni. Si presume che ogni variabile influenzi ogni altra variabile del sistema, il che rende difficile un’interpretazione diretta dei coefficienti stimati. Nonostante questo, i VAR sono utili in diversi contesti:

  1. Previsione di un insieme di variabili correlate dove non è richiesta un’interpretazione esplicita;
  2. valutare se una variabile è utile nella previsione di un’altra (la base dei test di causalità di Granger);
  3. analisi della risposta all’impulso, dove si analizza la risposta di una variabile a un cambiamento improvviso ma temporaneo di un’altra variabile;
  4. la decomposizione della varianza dell’errore di previsione, in cui la proporzione della varianza di previsione di ogni variabile è attribuita agli effetti delle altre variabili.

Esempio: Un modello VAR per prevedere il consumo degli Stati Uniti

fit <- us_change %>%
  model(
    aicc = VAR(vars(Consumption, Income)),
    bic = VAR(vars(Consumption, Income), ic = "bic")
  )
fit
#> # A mable: 1 x 2
#>               aicc              bic
#>            <model>          <model>
#> 1 <VAR(5) w/ mean> <VAR(1) w/ mean>

glance(fit)
#> # A tibble: 2 × 6
#>   .model sigma2        log_lik   AIC  AICc   BIC
#>   <chr>  <list>          <dbl> <dbl> <dbl> <dbl>
#> 1 aicc   <dbl [2 × 2]>   -373.  798.  806.  883.
#> 2 bic    <dbl [2 × 2]>   -408.  836.  837.  869.

Un modello VAR(5) viene selezionato usando l’AICc (il default), mentre un modello VAR(1) viene selezionato usando il BIC. Questo non è inusuale — il BIC selezionerà sempre un modello che ha meno parametri del modello AICc poiché impone una penalità più forte per il numero di parametri.

fit %>%
  augment() %>%
  ACF(.innov) %>%
  autoplot()
ACF dei residui dai due modelli VAR. Un modello VAR(5) è selezionato dall'AICc, mentre usando il BIC viene selezionato un modello VAR(1).

Figura 12.13: ACF dei residui dai due modelli VAR. Un modello VAR(5) è selezionato dall’AICc, mentre usando il BIC viene selezionato un modello VAR(1).

Vediamo che i residui del modello VAR(1) (bic) hanno un’autocorrelazione significativa per il Consumo, mentre il modello VAR(5) ha efficacemente catturato tutte le informazioni nei dati.

Le previsioni generate dal modello VAR(5) sono tracciate nella figura 12.14.

fit %>%
  select(aicc) %>%
  forecast() %>%
  autoplot(us_change %>% filter(year(Quarter) > 2010))
Previsioni per il consumo ed il reddito degli Stati Uniti generate da un modello VAR(5).

Figura 12.14: Previsioni per il consumo ed il reddito degli Stati Uniti generate da un modello VAR(5).

Bibliografia

Athanasopoulos, G., Poskitt, D. S., & Vahid, F. (2012). Two canonical VARMA forms: Scalar component models vis-à-vis the echelon form. Econometric Reviews, 31(1), 60–83. [DOI]
Hamilton, J. D. (1994). Time series analysis. Princeton University Press, Princeton. [Amazon]
Lütkepohl, H. (2007). General-to-specific or specific-to-general modelling? An opinion on current econometric terminology. Journal of Econometrics, 136(1), 234–319. [DOI]

  1. Una generalizzazione più flessibile sarebbe un processo ARMA vettoriale. Tuttavia, la relativa semplicità dei VAR ha portato alla loro dominanza nelle previsioni. I lettori interessati possono fare riferimento a G. Athanasopoulos et al. (2012)↩︎

  2. I lettori interessati possono fare riferimento a Hamilton (1994) e Lütkepohl (2007).↩︎