1.4 Dati e metodi per la previsione

L’appropriatezza di un metodo di per la previsione dipende fortemente da quali dati sono disponibili.

Infatti, se non ci sono dati disponibili, o se i dati disponibili non sono rilevanti ai fini delle previsioni, si può fare ricorso a metodi qualitativi di previsione. Non si tratta di pure congetture poiché ci sono approcci strutturati ben sviluppati per ottenere buone previsioni senza dati storici. Questi metodi sono discussi nel capitolo 6.

Metodi quantitativi di previsione possono essere utilizzati quando sono soddisfatte due condizioni:

  1. sono disponibili informazioni numeriche sul passato;
  2. è ragionevole assumere che alcuni aspetti dei pattern verificatisi in passato continueranno anche in futuro.

Esiste una vasta gamma di metodi quantitativi di previsione, spesso sviluppati in particolari discipline per scopi specifici. Ogni metodo ha proprietà caratteristiche, una propria accuratezza e dei costi che devono essere considerati quando si effettua una scelta tra i metodi disponibili.

La maggior parte dei problemi di previsione quantitativa utilizza dati di serie storiche (raccolti ad intervalli regolari lungo il tempo) o metodi osservazionali (raccolti in un singolo istante temporale). In questo libro si è interessati alla previsione di dati futuri e ci si concentrerà sul dominio delle serie storiche.

Previsioni di serie storiche

Esempi di dati di serie storica includono:

  • i profitti annuali di Google
  • i risultati trimestrali delle vendite di Amazon
  • le precipitazioni mensili
  • le vendite al dettaglio settimanali
  • i prezzi giornalieri delle azioni IBM
  • la domanda oraria di elettricità
  • il conteggio del traffico autostradale con frequenza di 5 minuti
  • i dati relativi alle transazioni di titoli dotati di marca temporale (time-stamped stock)

Tutto quello che è osservato sequenzialmente lungo il tempo costituisce una serie storica (o serie temporale). In questo libro verranno considerate solo serie storiche osservate ad intervalli temporali regolari (ad esempio orari, giornalieri, settimanali, mensili, trimestrali, annuali). È naturalmente possibile osservare anche serie storiche con intervalli temporali non regolari, ma non saranno considerate in questo libro.

Nel prevedere i dati di una serie storica, l’obiettivo è stimare l’evoluzione futura della sequenza di osservazioni. La figura 1.1 mostra la produzione trimestrale di birra in Australia dal primo trimestre del 2000 al secondo trimestre del 2010.

Produzione trimestrale di birra in Australia: 2000Q1–2010Q2, con due anni di previsioni.

Figura 1.1: Produzione trimestrale di birra in Australia: 2000Q1–2010Q2, con due anni di previsioni.

Le linee blu rappresentano le previsioni per i due anni successivi. È possibile notare come le previsioni siano state in grado di catturare i pattern stagionali presenti nei dati storici, replicandoli per i due anni successivi. La regione ombreggiata in scuro mostra gli intervalli di previsione all’80%. Vale a dire che ci si aspetta che ogni valore futuro dovrebbe cadere nella regione ombreggiata con una probabilità dell’80%. La regione ombreggiata in chiaro mostra gli intervalli di previsione al 95%. Questi intervalli di previsione sono un utile modo per visualizzare l’incertezza nelle previsioni. In questo esempio le previsioni dovrebbero essere accurate, e quindi gli intervalli di previsione sono piuttosto stretti.

I metodi più semplici per la previsione di serie storiche utilizzano solo informazioni sulla variabile da prevedere, e non cercano di scoprire i fattori che la influenzano. Pertanto tali metodi tendono ad estrapolare la tendenza (trend) e i pattern stagionali (stagionalità), ma non considerano tutte le altre informazioni, come ad esempio azioni di marketing, attività della concorrenza, cambiamenti nella condizione economica.

I metodi di decomposizione sono utili per studiare il trend e la stagionalità in una serie storica; questi metodi sono discussi nel capitolo 3. Modelli di serie storiche molto utilizzati per la previsione includono i modelli basati sullo smoothing (lisciamento) esponenziale e i modelli ARIMA, presentati rispettivamente nei capitoli 8 e 9.

Variabili esplicative e previsione di serie storiche

Nelle previsioni di serie storiche sono spesso utilizzate variabili esplicative. Si supponga ad esempio di essere interessati a prevedere la domanda oraria di elettricità (DE) di una regione calda durante il periodo estivo. Un modello con variabili esplicative potrebbe essere della seguente forma \[\begin{align*} \text{DE} = & f(\text{temperatura attuale, andamento del sistema economico, popolazione,}\\ & \qquad\text{ora del giorno, giorno della settimana, errore}). \end{align*}\] La relazione non è esatta — ci saranno sempre variazioni nella domanda di elettricità che non possono essere spiegate a partire dalle variabili esplicative considerate. Il termine di “errore” tiene conto di fluttuazioni casuali e di variabili rilevanti che non sono incluse nel modello. Ci si riferirà a tale modello come modello esplicativo perché aiuta a spiegare le cause della variazione nella domanda di elettricità.

Poiché i dati sulla domanda di energia elettrica formano una serie storica, potremmo anche usare un modello per serie storiche ai fini della previsione. In questo caso, un modello adeguato di previsione per una serie storica è della forma \[ \text{DE}_{t+1} = f(\text{DE}_{t}, \text{DE}_{t-1}, \text{DE}_{t-2}, \text{DE}_{t-3},\dots, \text{errore}), \] dove \(t\) rappresenta l’ora attuale, \(t+1\) l’ora successiva, \(t-1\) l’ora precedente, \(t-2\) due ore prima, e così via. In questo caso la previsione del futuro si basa sui valori passati di una variabile ma non su variabili esterne che possono influenzare il sistema. Anche in questo caso il termine “errore” sulla destra permette di tenere conto di fluttuazioni casuali e dell’effetto di variabili rilevanti non incluse nel modello.

C’è anche una terza tipologia di modello che combina le caratteristiche dei due modelli precedenti. Esso potrebbe ad esempio essere dato da \[ \text{DE}_{t+1} = f(\text{DE}_{t}, \text{temperatura attuale, ora del giorno, giorno della settimana, errore}). \] Ci si riferisce a questo tipo di “modelli misti” con nomi differenti a seconda della disciplina di utilizzo. Sono noti come modelli di regressione dinamica, modelli per dati panel, modelli longitudinali, modelli a funzione di trasferimento e modelli per sistemi lineari (assumendo che \(f\) sia lineare). Questi modelli sono discussi nel capitolo 10.

Un modello esplicativo è utile perché incorpora informazioni su altre variabili e non solo sui valori storici della variabile da prevedere. Ci sono tuttavia diverse ragioni per cui chi effettua previsioni potrebbe scegliere un modello per serie storiche piuttosto che un modello esplicativo o un modello misto.

In primo luogo il sistema potrebbe non essere del tutto noto, ed anche ipotizzando che sia del tutto noto potrebbe essere estremamente difficile misurare le relazioni che si assume possano regolarne il funzionamento. In secondo luogo è necessario conoscere o prevedere i valori futuri dei vari predittori considerati per essere in grado di prevedere la variabile di interesse, e anche questo potrebbe essere troppo difficile. In terzo luogo il reale obiettivo potrebbe essere solo quello di prevedere cosa succederà in futuro e non sapere perché questo succederà. Infine il modello per serie storiche potrebbe fornire previsioni più accurate rispetto ad un modello esplicativo o ad un modello misto.

Il modello da utilizzare nella previsione dipende anche dalle risorse e dai dati disponibili, dall’accuratezza dei metodi alternativi disponibili e dal modo in cui il modello di previsione viene utilizzato.