2.8 Autocorrelazione

Così come la correlazione misura la forza della relazione lineare tra due variabili, l’autocorrelazione misura la forza della relazione lineare tra valori ritardati di una serie storica.

Ci sono diversi coefficienti di autocorrelazione, che corrispondono a ciascun pannello nel grafico dei ritardi. Ad esempio \(r_{1}\) misura la relazione tra \(y_{t}\) e \(y_{t-1}\), \(r_{2}\) misura la relazione tra \(y_{t}\) e \(y_{t-2}\), e così via.

Il valore di \(r_{k}\) può essere scritto come \[ r_{k} = \frac{\sum\limits_{t=k+1}^T (y_{t}-\bar{y})(y_{t-k}-\bar{y})} {\sum\limits_{t=1}^T (y_{t}-\bar{y})^2}, \] dove \(T\) è la lunghezza della serie storica. I coefficienti di autocorrelazione costituiscono la funzione di autocorrelazione, o ACF, al variare di \(k\).

I coefficienti di autocorrelazione per i dati sulla produzione della birra possono essere calcolati sfruttando la funzione ACF().

recent_production %>% ACF(Beer, lag_max = 9)
#> # A tsibble: 9 x 2 [1Q]
#>        lag      acf
#>   <cf_lag>    <dbl>
#> 1       1Q -0.0530 
#> 2       2Q -0.758  
#> 3       3Q -0.0262 
#> 4       4Q  0.802  
#> 5       5Q -0.0775 
#> 6       6Q -0.657  
#> 7       7Q  0.00119
#> 8       8Q  0.707  
#> 9       9Q -0.0888

I valori nella colonna acf sono \(r_1,\dots,r_9\), e corrispondono ai nove diagrammi di dispersione di figura 2.19. L’ACF viene solitamente rappresentata graficamente per visualizzare come le correlazioni variano al variale del ritardo (lag) \(k\). Il grafico utilizzato a tale scopo è a volte chiamato correlogramma.

recent_production %>%
  ACF(Beer) %>%
  autoplot() + labs(title="Produzione di birra in Australia")
Funzione di autocorrelazione globale della produzione trimestrale di birra.

Figura 2.20: Funzione di autocorrelazione globale della produzione trimestrale di birra.

In questo grafico:

  • \(r_{4}\) è più alto rispetto agli altri ritardi. Questo è dovuto alla componente stagionale presente nei dati: i picchi tendono ad essere a distanza di quattro trimestri e gli avvallamenti tendono ad essere a distanza di quattro trimestri.
  • \(r_{2}\) è più basso rispetto agli altri ritardi perché gli avvallamenti tendono ad essere due trimestri dopo i picchi.
  • Le linee tratteggiate blu indicano se le correlazioni sono significativamente diverse da zero (come spiegato nel paragrafo 2.9).

Trend e stagionalità nei grafici ACF

Quando i dati presentano un trend, le autocorrelazioni per ritardi piccoli tendono ad essere più grandi e positive poiché le osservazioni vicine nel tempo sono anche vicine in valore. Quindi l’ACF di una serie storica con trend tende ad assumere valori positivi che diminuiscono lentamente all’aumentare dei ritardi.

Quando i dati presentano stagionalità, le autocorrelazioni saranno più grandi per i ritardi stagionali (ai multipli del periodo di stagionalità) rispetto agli altri ritardi.

Quando i dati presentano sia trend che stagionalità, è possibile vedere una combinazione di questi effetti. I dati a10 rappresentati in figura 2.2 mostrano sia trend che stagionalità. La corrispondente ACF è rappresentata in figura 2.21. Il lento calo dell’ACF all’aumentare dei ritardi è dovuto al trend, mentre le “merlature” sono dovuta alla stagionalità.

a10 %>%
  ACF(Cost, lag_max = 48) %>%
  autoplot() +
  labs(title="Vendite dei farmaci antidiabetici in Australia")
ACF delle vendite mensili di farmaci antidiabetici in Australia.

Figura 2.21: ACF delle vendite mensili di farmaci antidiabetici in Australia.