2.6 Diagrammi di dispersione (scatterplot)

I grafici discussi finora sono utili per visualizzare serie storiche singole. È però anche utile esplorare relazioni tra serie storiche.

Le figure 2.12 e 2.13 mostrano due serie storiche: domanda semi-oraria di energia elettrica (in Gigawatts) e temperatura (in gradi Celsius), per il 2014 in Victoria, Australia. Le temperature sono riferite a Melbourne, la città più grande nello stato di Victoria, mentre i valori per la domanda sono relativi all’intero stato.

vic_elec %>%
  filter(year(Time) == 2014) %>%
  autoplot(Demand) +
  labs(x = "Tempo",
       y = "GW",
       title = "Domanda semi-oraria di energia elettrica: Victoria")
Domanda semi-oraria di energia elettrica in Victoria, Australia, anno 2014.

Figura 2.12: Domanda semi-oraria di energia elettrica in Victoria, Australia, anno 2014.

vic_elec %>%
  filter(year(Time) == 2014) %>%
  autoplot(Temperature) +
  labs(
    x = "Tempo",
    y = "Gradi Celsius",
    title = "Temperatura semi-oraria: Melbourne, Australia"
  )
Temperatura semi-oraria in Melbourne, Australia, per il 2014.

Figura 2.13: Temperatura semi-oraria in Melbourne, Australia, per il 2014.

È possibile studiare la relazione tra la domanda e la temperatura rappresentando graficamente una serie contro l’altra.

vic_elec %>%
  filter(year(Time) == 2014) %>%
  ggplot(aes(x = Temperature, y = Demand)) +
  geom_point() +
  labs(x = "Temperatura (gradi Celsius)",
       y = "Domanda di energia elettrica (GW)")
Domanda semi-oraria di energia elettrica (asse verticale) vs temperatura (asse orizzontale), anno 2014 in Victoria, Australia.

Figura 2.14: Domanda semi-oraria di energia elettrica (asse verticale) vs temperatura (asse orizzontale), anno 2014 in Victoria, Australia.

Questo scatterplot permette di visualizzare la relazione tra le variabili in gioco. È chiaro come una domanda elevata si verifica in corrispondenza di alte temperature, dovute all’effetto dell’aria condizionata. Ma c’è anche un effetto di riscaldamento, dove cioè la domanda aumenta per temperature molto basse.

Correlazione

È comune il calcolo del coefficiente di correlazione per misurare la forza della relazione lineare tra due variabili. La correlazione tra le variabili \(x\) e \(y\) è data da \[ r = \frac{\sum (x_{t} - \bar{x})(y_{t}-\bar{y})}{\sqrt{\sum(x_{t}-\bar{x})^2}\sqrt{\sum(y_{t}-\bar{y})^2}}. \] Il valore di \(r\) si trova sempre tra \(-1\) e 1, con valori negativi che indicano una relazione inversa, e valori positivi che indicano una relazione diretta. I grafici in figura 2.15 mostrano esempi di dati con diversi livelli di correlazione.

Esempi di dati con differenti livelli di correlazione.

Figura 2.15: Esempi di dati con differenti livelli di correlazione.

Il coefficiente di correlazione misura solo la forza della relazione lineare tra due variabili, e può essere a volte fuorviante. Ad esempio, la correlazione per i dati sulla domanda di energia elettrica e la temperatura mostrata in figura 2.14 è 0.28, ma la relazione non-lineare è più forte di quella lineare.

Ognuno di questi grafici ha un coefficiente di correlazione di 0.82. Dati da Anscombe (1973).

Figura 2.16: Ognuno di questi grafici ha un coefficiente di correlazione di 0.82. Dati da Anscombe (1973).

I grafici in figura 2.16 hanno tutti un coefficiente di correlazione di 0.82, anche se mostrano relazioni molto diverse. Questo esempio mostra quanto sia importante guardare la rappresentazione grafica dei dati e non affidarsi semplicemente ai valori di correlazione.

Matrice dei diagrammi di dispersione

Quando ci sono diverse possibili variabili esplicative, è utile rappresentare tutte le possibili coppie di variabili. Si considerino le otto serie storiche in figura 2.17, che mostrano il numero trimestrale di visitatori tra gli stati e i territori dell’Australia.

visitors <- tourism %>%
  group_by(State) %>%
  summarise(Trips = sum(Trips))
visitors %>%
  ggplot(aes(x = Quarter, y = Trips)) +
  geom_line() +
  facet_grid(vars(State), scales = "free_y") +
  labs(title = "Turismo interno austrialiano",
       x = "Trimestre",
       y= "Pernottamenti ('000)")
Pernottamenti dei visitatori per gli stati e i territori dell'Australia, valori trimestrali, 2010-2015.

Figura 2.17: Pernottamenti dei visitatori per gli stati e i territori dell’Australia, valori trimestrali, 2010-2015.

Per visualizzare le relazioni tra queste otto serie storiche, si può rappresentare ciascuna serie storica contro le altre. I grafici risultanti possono essere disposti in una matrice di diagrammi di dispersione (scatterplot matrix), come mostrato in figura 2.18. (Questo grafico richiede che sia installato il package GGally.)

visitors %>%
  pivot_wider(values_from=Trips, names_from=State) %>%
  GGally::ggpairs(columns = 2:9)
Matrice dei diagrammi di dispersione dei pernottamenti di visitatori negli stati e territori dell'Australia, valori trimestrali, 2010-2015.

Figura 2.18: Matrice dei diagrammi di dispersione dei pernottamenti di visitatori negli stati e territori dell’Australia, valori trimestrali, 2010-2015.

Per ogni pannello, le etichette riportate sulle righe a destra permettono di risalire alle variabili rappresentate sull’asse verticale, mentre le etichette riportate sulle colonne in alto fanno riferimento alle variabili rappresentate sull’asse orizzontale. Sono disponibili diverse opzioni per ottenere grafici differenti in ciascun pannello. Nella versione di default vengono mostrati i valori dei coefficienti di correlazione nella diagonale superiore del grafico, e i diagrammi di dispersione nella diagonale inferiore. Sulla diagonale vengono invece rappresentate le densità empiriche.

Il vantaggio della matrice dei diagrammi di dispersione è che permette una veloce visualizzazione delle relazioni tra tutte le coppie di variabili. In questo esempio vengono evidenziate relazioni per lo più positive, con relazioni più forti tra stati vicini situati nella costa sud e sud-orientale dell’Australia, vale a dire New South Wales, Victoria e South Australia. Sono evidenziate anche alcune relazioni negative tra il Northern Territory ed altre regioni. Il Northern Territory si trova nel nord dell’Australia ed è famoso per i suoi paesaggi desertici visitati soprattutto in inverno. Quindi il picco di visite nel Northern Territory è nel trimestre di luglio (inverno), diverso dal trimestre di gennaio (estate) per il resto delle regioni.

Bibliografia

Anscombe, F. J. (1973). Graphs in statistical analysis. The American Statistician, 27(1), 17–21. [DOI]