7.8 Correlazione, causalità e previsione

Correlazione non significa causalità

È importante non confondere il concetto di correlazione con quello di causalità, o il concetto di causalità con la previsione. La variabile \(x\) può essere utile per prevedere la variabile \(y\), ma questo non necessariamente significa che \(x\) causi \(y\). È possibile che \(x\) causi \(y\), ma potrebbe anche essere che \(y\) causi \(x\), oppure che la relazione esistente tra queste variabili sia più complessa della semplice causalità.

È possibile modellare ad esempio il numero di annegamenti che si verificano ogni mese in una località balneare con il numero di gelati venduti nello stesso periodo. Il modello può dare previsioni ragionevoli, non perché i gelati causino annegamenti, ma perché la gente mangia più gelati nei giorni caldi, quando è anche più probabile che vada a nuotare in piscina. Quindi le due variabili (vendite di gelati e annegamenti) sono correlate, ma una non causa l’altra. Sono entrambe causate da una terza variabile (la temperatura). Questo è un esempio di “confondimento” — dove una variabile omessa causa cambiamenti sia nella variabile di risposta che in almeno una variabile predittiva.

Si fa riferimento ad una variabile non inclusa nel modello di previsione come confondente quando influenza sia la variabile di risposta che almeno una variabile predittiva. Il confondimento rende difficile determinare quali variabili stanno causando cambiamenti in altre variabili, ma non rende necessariamente più difficile la previsione.

Allo stesso modo, è possibile prevedere se pioverà nel pomeriggio osservando il numero di ciclisti sulla strada al mattino. Quando ci sono meno ciclisti del solito, è più probabile che piova più tardi nella giornata. Il modello può dare previsioni ragionevoli, non perché i ciclisti impediscano la pioggia, ma perché le persone sono più propense a pedalare quando le previsioni meteo pubblicate sono per un giorno asciutto. In questo caso, esiste una relazione causale, ma nella direzione opposta rispetto a quella ipotizzata dal modello di previsione. Il numero di ciclisti scende perché c’è una previsione di pioggia. Cioè, \(y\) (pioggia) sta influenzando \(x\) (ciclisti).

È importante capire che le correlazioni sono utili per le previsioni, anche quando non c’è una relazione causale tra le due variabili, o quando la causalità si verifica nella direzione opposta al modello, o quando c’è confondimento.

Tuttavia, spesso è possibile ottenere un modello migliore se può essere determinato un meccanismo causale. Un modello migliore per gli annegamenti probabilmente includerà le temperature e il numero di visitatori ed escluderà le vendite di gelati. Un buon modello di previsione per le precipitazioni non includerà i ciclisti, ma includerà le osservazioni atmosferiche dei giorni precedenti.

Previsione con predittori correlati

Quando due o più predittori sono altamente correlati, è sempre difficile separare accuratamente i loro effetti individuali. Si supponga di prevedere le vendite mensili di un’azienda per il 2012, utilizzando i dati del periodo 2000–2011. Nel gennaio 2008, un nuovo concorrente è entrato nel mercato e ha iniziato ad accaparrarsi quote di mercato. Allo stesso tempo, l’economia ha cominciato a declinare. Nel modello di previsione, si includerà sia l’attività del concorrente (misurata usando il tempo di pubblicità su una stazione televisiva locale) che il grado di salute dell’economia (misurata usando il PIL). Non sarà quindi possibile separare gli effetti di questi due predittori perché sono altamente correlati.

Avere predittori correlati non costituisce un reale problema per la previsione, poiché è ancora possibile calcolare le previsioni senza bisogno di separare gli effetti dei predittori. Tuttavia, diventa un problema con le previsioni di scenario, poiché gli scenari dovrebbero tenere conto delle relazioni tra i predittori. Avere predittori correlati rappresenta un problema anche nel caso in cui sia richiesta un’analisi storica dei contributi dei vari predittori.

Multicollinearità e previsione

Un problema strettamente correlato è la multicollinearità, che si verifica quando informazioni simili sono fornite da due o più variabili predittive in una regressione multipla.

Ciò può verificarsi quando due predittori sono altamente correlati tra loro (hanno cioè un coefficiente di correlazione vicino a +1 o -1). In questo caso, conoscere il valore di una delle variabili dice molto sul valore dell’altra variabile. Quindi, queste variabili forniscono informazioni simili. Per esempio, le dimensioni del piede possono essere usate per prevedere l’altezza, ma includere le dimensioni del piede destro e sinistro nello stesso modello non migliorerà le previsioni, anche se certamente non le peggiorerà.

La multicollinearità può verificarsi anche quando una combinazione lineare di predittori è altamente correlata con un’altra combinazione lineare di predittori. In questo caso, conoscere il valore del primo gruppo di predittori dice molto sul valore del secondo gruppo di predittori. Quindi, i due predittori stanno fornendo informazioni simili.

Un esempio di questo problema è la trappola della variabile dummy discussa nel paragrafo 7.4. Si supponga ad esempio di avere dati trimestrali e di usare quattro variabili dummy, \(d_1\), \(d_2\), \(d_3\) e \(d_4\). Allora \(d_4=1-d_1-d_2-d_3\), per cui c’è perfetta correlazione tra \(d_4\) e \(d_1+d_2+d_3\).

Nel caso di correlazione perfetta (cioè, una correlazione di +1 o -1, come nella trappola delle variabili dummy), non è possibile stimare il modello di regressione.

Se c’è un’alta correlazione (vicina ma non uguale a +1 o -1), allora la stima dei coefficienti di regressione è computazionalmente difficile. Infatti, alcuni software (in particolare Microsoft Excel) possono dare stime molto imprecise dei coefficienti. La maggior parte dei software statistici più utilizzati usano algoritmi per limitare l’effetto della multicollinearità sulle stime dei coefficienti, ma bisogna fare molta attenzione. I principali software come R, SPSS, SAS e Stata usano tutti algoritmi di stima per evitare il più possibile questo problema.

Quando è presente multicollinearità tra i regressori, l’incertezza associata ai singoli coefficienti di regressione sarà grande. Questo si verifica perché i coefficienti sono difficili da stimare. Di conseguenza, i test statistici (ad esempio, i test t) sui coefficienti di regressione non sono affidabili. (Nel caso della previsione si è raramente interessati a questo tipo di test statistici). Inoltre, non sarà possibile fare affermazioni accurate sul contributo di ogni singolo predittore alla previsione.

Le previsioni saranno inaffidabili se i valori dei predittori futuri sono al di fuori del range dei valori storici dei predittori. Per esempio, si supponga di aver applicato un modello di regressione utilizzando i predittori \(x_1\) e \(x_2\) che sono altamente correlati tra loro, e si supponga inoltre che i valori di \(x_1\) nel campione di stima siano compresi tra 0 e 100. Allora le previsioni basate su \(x_1>100\) o \(x_1<0\) saranno inaffidabili. È sempre un po’ pericoloso quando i valori futuri dei predittori si trovano molto al di fuori del range storico, ma questo risulta particolarmente problematico quando è presente la multicollinearità.

È comunque utile sottolineare che se si sta usando un buon software statistico, se non si è interessati ai contributi specifici di ogni predittore, e se i valori futuri dei predittori sono all’interno dei loro range storici, non c’è nulla di cui preoccuparsi — la multicollinearità non è un problema, tranne quando c’è una perfetta correlazione.