13.2 Serie storiche di conteggi

Tutti i metodi discussi in questo libro assumono che i dati provegano da uno spazio campionario continuo. Spesso, tuttavia, i dati si presentano in forma di conteggi. Per esempio, si potrebbe voler prevedere il numero di clienti che entrano in un supermecato ogni giorno. Possiamo avere \(0, 1, 2, \dots\), clienti, ma non 3.45693 clienti.

In pratica, ciò non ha un grande impatto se i nostri conteggi sono sufficientemente grandi. Se il minimo numero di clienti è sempre superiore a 100, allora la differenza tra lo spazio campionario continuo \([100,\infty)\) e lo spazio campionario discreto \(\{100,101,102,\dots\}\) non ha veri effetti sulle nostre previsioni. Tuttavia, se i dati contengono conteggi piccoli \((0, 1, 2, \dots)\), allora è necessario utilizzare metodi di previsione che sono più appropriati per uno spazio camapionario formato da interi non negativi.

Tali modelli vanno oltre lo scopo di questo libro. Tuttavia, c’è un metodo semplice che viene sempre più utilizzato in questo conteso e che vorremmo menzionare. Si tratta del cosidddetto “metodo di Croston”, così chiamato dal nome del suo inventore inglese, John Croston, e descritto per la prima volta in Croston (1972). In realtà, questo metodo non considera neppure la natura dei dati di conteggio in senso stretto, ma è utilizzato così spesso che vala la pena di conoscerlo.

Con il metodo di Croston, vengono costruite due nuove serie, a partire dalla serie storica originaria, selezionando gli istanti di tempo che contengono valori nulli e quelli che contengono valori diversi da zero. Siano \(q_i\) l’ \(i\)-esima quantità non nulla e \(a_i\) l’istante di tempo tra \(q_{i-1}\) and \(q_i\). Il metodo di Croston separa le previsioni prodotte da un lisciamento esponenziale semplice nelle due nuove serie \(a\) e \(q\). Poiché il metodo di solito è applicato a serie storiche relative alla domanda di oggetti, \(q\) spesso viene indicato come “domanda” e \(a\) come “tempo tra gli arrivi” (“inter-arrival time”).

Indichiamo con \(\hat{q}_{i+1|i}\) e \(\hat{a}_{i+1|i}\) le previsioni ad un passo della \((i+1)\)-esima domanda e del relativo tempo tra gli arrivi basate sui dati fino alla domanda \(i\). Allora, secondo il metodo di Croston si ha: \[\begin{align} \hat{q}_{i+1|i} & = (1-\alpha_q)\hat{q}_{i|i-1} + \alpha_q q_i, \tag{13.1}\\ \hat{a}_{i+1|i} & = (1-\alpha_a)\hat{a}_{i|i-1} + \alpha_a a_i. \tag{13.2} \end{align}\] I parametri di lisciamento \(\alpha_a\) e \(\alpha_q\) assumono valori tra 0 e 1. Sia \(j\) l’istante di tempo relativo all’ultima osservazione positiva. Allora, la previsione \(h\) passi in avanti per la domanda al tempo \(T+h\), è data dal rapporto \[\begin{equation}\label{c2ratio} \hat{y}_{T+h|T} = \hat{q}_{j+1|j}/\hat{a}_{j+1|j}. \end{equation}\] Non ci sono risultati algebrici che permettano di calcolare intervalli di previsione con questo metodo, perché esso non corrisponde ad alcun modello statistico (Shenstone & Hyndman, 2005).

La funzione CROSTON() produce previsioni basate sul metodo di Croston. I due parametri di lisciamento \(\alpha_a\) e \(\alpha_q\) vengono stimati sui dati. ciò differisce da come Croston aveva pensato di utilizzare questo metodo. Nell’approccio originale, infatti, si consideravano \(\alpha_a=\alpha_q=0.1\), e si ponevano \(a_0\) e \(q_0\) uguali alla prima osservazione di ciascuna delle due serie.

Esempio: le vedite di articoli farmaceutici

La Figura 13.3 mostra il numero mensile di prescrizioni di prodotti sieri immuni e immunoglobuline in Australia. I dati mostrano che si tratta di piccole quanatit, con diversi mesi senza alcuna vendita e solo pochi pezzi venduti in altri mesi.

j06 <- PBS %>%
  filter(ATC2 == "J06") %>%
  summarise(Scripts = sum(Scripts))

j06 %>% autoplot(Scripts) +
  labs(y="Numero di prescrizioni",
       title = "Vendite di sieri immuni e immunoglobuline")
Numero di prescrizioni di prodotti sieri immuni e immunoglobuline all'interno del sistema sanitario nazionale australiano.

Figura 13.3: Numero di prescrizioni di prodotti sieri immuni e immunoglobuline all’interno del sistema sanitario nazionale australiano.

Le tabelle 13.1 e 13.2 mostrano i primi 10 valori di domanda non nulli, con i loro corrispondenti tempi di inter-arrivo.

Tabella 13.1: I primi 10 valori diversi da zero della domanda.
Month Scripts
1991 Jul 1
1991 Aug 1
1991 Sep 1
1991 Oct 0
1991 Nov 0
1991 Dec 1
1992 Jan 3
1992 Feb 1
1992 Mar 1
1992 Apr 1
1992 May 1
1992 Jun 1
Tabella 13.2: I primi 10 valori diversi da zero della domanda, mostrati come serie della domanda e dei tempi tra gli arrivi.
\(i\) 1 2 3 4 5 6 7 8 9 10
\(q_i\) 1 1 1 1 3 1 1 1 1 1
\(a_i\) 1 1 3 1 1 1 1 1 1

In questo esempio, le stime dei parametri di lisciamento sono risultate \(\alpha_a = 0.08\), \(\alpha_q = 0.71\), \(\hat{q}_{1|0}=4.17\), and \(\hat{a}_{1|0}=3.52\). Le previsioni finali per le due serie sono \(\hat{q}_{T+1|T} = 2.419\) and \(\hat{a}_{T+1|T} = 2.484\). Quindi le previsioni sono tutte uguali a \(\hat{y}_{T+h|T} = 2.419/2.484 = 0.974\).

In pratica, fable svolge i calcoli che servono:

j06 %>%
  model(CROSTON(Scripts)) %>%
  forecast(h = 6)
#> # A fable: 6 x 4 [1M]
#> # Key:     .model [1]
#>   .model              Month Scripts .mean
#>   <chr>               <mth>  <dist> <dbl>
#> 1 CROSTON(Scripts) 2008 Jul  0.9735 0.974
#> 2 CROSTON(Scripts) 2008 Aug  0.9735 0.974
#> 3 CROSTON(Scripts) 2008 Sep  0.9735 0.974
#> 4 CROSTON(Scripts) 2008 Oct  0.9735 0.974
#> 5 CROSTON(Scripts) 2008 Nov  0.9735 0.974
#> 6 CROSTON(Scripts) 2008 Dec  0.9735 0.974

La colonna Scripts ripete solamente la media invece di fornire l’intera distribuzione, perché non c’è nessun modello stocastico sottostante.

Modelli previsionali che trattano più specificamente la natura di conteggio dei dati, e permettono di avere una distribuzione predittiva vengono descritti in Christou & Fokianos (2015).

Bibliografia

Christou, V., & Fokianos, K. (2015). On count time series prediction. Journal of Statistical Computation and Simulation, 85(2), 357–373. [DOI]
Croston, J. D. (1972). Forecasting and stock control for intermittent demands. Operational Research Quarterly, 23(3), 289–303. [DOI]
Shenstone, L., & Hyndman, R. J. (2005). Stochastic models underlying Croston’s method for intermittent demand forecasting. Journal of Forecasting, 24(6), 389–402. [DOI]