7.10 Esercizi

  1. La domanda di elettricità per Victoria, in Australia ogni mezz’ora è contenuta in vic_elec. Estrai la domanda di elettricità di gennaio 2014, e aggrega questi dati a frequenza giornaliera con la domanda totale giornaliera e le temperature massime.

    jan14_vic_elec <- vic_elec %>%
      filter(yearmonth(Time) == yearmonth("2014 Jan")) %>%
      index_by(Date = as_date(Time)) %>%
      summarise(
            Demand = sum(Demand),
            Temperature = max(Temperature)
      )
    1. Costruisci il grafico dei dati e determina il modello di regressione per la domanda utilizzando la temperatura come variabile predittiva. Perché c’è una relazione positiva?

    2. Produci un grafico dei residui. Il modello è adeguato? Sono presenti osservazioni anomale o osservazioni influenti?

    3. Utilizza il modello per prevedere la domanda di elettricità che ti aspetteresti per il giorno successivo se la temperatura massima fosse di \(15^\circ \text{C}\) e confrontala con la previsione nell’ipotesi che la temperatura massima sia di \(35^\circ \text{C}\). Queste previsioni risultano credibili? Il seguente codice R è un utile punto di partenza:

       jan14_vic_elec %>%
         model(TSLM(Demand ~ Temperature)) %>%
         forecast(
           new_data(jan14_vic_elec, 1) %>%
             mutate(Temperature = 15)
         ) %>%
         autoplot(jan14_vic_elec)
    4. Fornisci gli intervalli di previsione per le previsioni.

    5. Costruisci il grafico Domanda vs Temperatura per tutti i dati disponibili in vic_elec aggregati alla domanda totale giornaliera e alla temperatura massima. Che informazione fornisce questo grafico sul modello che stai considerando?

  2. Il dataset olympic_running contiene i tempi vincenti (in secondi) in ogni gara olimpica di sprint, media distanza e lunga distanza su pista dal 1896 al 2016.

    1. Costruisci il grafico del tempo vincente rispetto all’anno per ogni evento. Descrivi le caratteristiche principali del grafico.
    2. Adatta una retta di regressione ai dati per ogni evento. Ovviamente i tempi vincenti sono diminuiti, ma a quale tasso medio all’anno?
    3. Costruisci il grafico dei residui rispetto all’anno. Che indicazione fornisce questo grafico circa l’adeguatezza delle linee tracciate?
    4. Prevedi il tempo vincente di ogni gara alle Olimpiadi del 2020. Fornisci un intervallo di previsione per le previsioni ottenute. Quali ipotesi sono state fatte per ottenere questi calcoli?
  1. Un coefficiente di elasticità è il rapporto tra la variazione percentuale della variabile di previsione (\(y\)) e la variazione percentuale della variabile predittiva (\(x\)). Matematicamente, l’elasticità è definita come \((dy/dx)\times(x/y)\). Considera il modello log-log, \[ \log y=\beta_0+\beta_1 \log x + \varepsilon. \] Esprimi \(y\) in funzione di \(x\) e mostra che il coefficiente \(\beta_1\) è il coefficiente di elasticità.

  2. Il dataset souvenirs contiene le cifre di vendita mensili di un negozio che ha aperto nel gennaio 1987 e vende regali, souvenir ed oggetti introvabili. Il negozio è situato sul molo di una città balneare nel Queensland, in Australia. Il volume delle vendite varia con la popolazione stagionale dei turisti. C’è un grande afflusso di visitatori in città a Natale e per il festival locale del surf, che si tiene ogni marzo dal 1988. Nel corso del tempo, il negozio ha ampliato i suoi locali, la gamma di prodotti ed il personale.

    1. Produci un diagramma temporale dei dati e descrivi i risultati ottenuti nel grafico. Identifica qualsiasi fluttuazione insolita o inaspettata nella serie temporale.
    2. Spiega perché è necessario considerare i logaritmi di questi dati prima di applicare un modello.
    3. Applica un modello di regressione ai logaritmi dei dati sulle vendite includendo un trend lineare, dummy stagionali ed una variabile dummy “surf festival”.
    4. Costruisci il grafico dei residui contro il tempo e contro i valori adattati. Questi grafici rivelano qualche problema del modello?
    5. Costruisci dei boxplot dei residui per ogni mese. Questo grafico rivela qualche problema del modello?
    6. Che informazione forniscono i valori dei coefficienti di ogni variabile?
    7. Che informazione fornisce il test di Ljung-Box sul modello?
    8. Indipendentemente dalle risposte alle domande precedenti, usa il modello di regressione per prevedere le vendite mensili per il 1994, 1995 e 1996. Produci gli intervalli di previsione per ciascuna delle vostre previsioni.
    9. Come potresti migliorare queste previsioni modificando il modello?
  3. La serie us_gasoline contiene i dati settimanali per le forniture di benzina per motori degli Stati Uniti, dal 2 febbraio 1991 al 20 gennaio 2017. Le unità sono in “milioni di barili al giorno”. Considera solo i dati fino alla fine del 2004.

    1. Applica ai dati una regressione armonica con trend. Fai alcuni esperimenti cambiando il numero di termini di Fourier. Costruisci il grafico della benzina osservata contro i valori adattati e commenta quanto ottenuto.
    2. Seleziona il numero appropriato di termini di Fourier da includere minimizzando il valore AICc o CV.
    3. Costruisci il grafico dei residui del modello finale usando la funzione gg_tsresiduals() e commenta il risultato. Usa un test di Ljung-Box per controllare l’autocorrelazione dei residui.
    4. Genera le previsioni per il prossimo anno di dati e rappresentale graficamente contro i dati reali per il 2005. Commenta le previsioni.
  4. La popolazione annuale dell’Afghanistan è disponibile nel dataset global_economy.

    1. Costruisci il grafico dei dati e commenta le caratteristiche. È possibile osservare dal grafico l’effetto della guerra sovietico-afghana?
    2. Stima un modello con un trend lineare e confrontalo con un modello con un trend lineare a tratti con nodi in corrispondenza dell’anno 1980 e dell’anno 1989.
    3. Genera delle previsioni da questi due modelli per i cinque anni successivi alla fine del campione e commenta i risultati.
  5. (Per i lettori avanzati, a seguire il paragrafo opzionale 7.9).

    Usando la notazione matriciale è stato dimostrato che se \(\bm{y}=\bm{X}\bm{\beta}+\bm{\varepsilon}\), dove \(\bm{\varepsilon}\) ha media \(\bm{0}\) e matrice di varianza \(\sigma^2\bm{I}\), i coefficienti stimati sono dati da \(\hat{\bm{\beta}}=(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y}\) ed una previsione è data da \(\hat{y}=\bm{x}^*\hat{\bm{\beta}}=\bm{x}^*(\bm{X}'\bm{X})^{-1}\bm{X}'\bm{y}\) dove \(\bm{x}^*\) è un vettore riga che contiene i valori dei predittori per la previsione (nello stesso formato di \(\bm{X}\)), e la varianza della previsione è data da \(\text{Var}(\hat{y})=\sigma^2 \left[1+\bm{x}^*(\bm{X}'\bm{X})^{-1}(\bm{x}^*)'\right].\)

    Considera il semplice modello che include solo il trend temporale in cui \(y_t = \beta_0 + \beta_1t\). Utilizzando i seguenti risultati, \[ \sum^{T}_{t=1}{t}=\frac{1}{2}T(T+1),\quad \sum^{T}_{t=1}{t^2}=\frac{1}{6}T(T+1)(2T+1) \] deriva le seguenti espressioni:

    1. \(\displaystyle\bm{X}'\bm{X}=\frac{1}{6}\left[ \begin{array}{cc} 6T & 3T(T+1) \\ 3T(T+1) & T(T+1)(2T+1) \\ \end{array} \right]\)

    2. \(\displaystyle(\bm{X}'\bm{X})^{-1}=\frac{2}{T(T^2-1)}\left[ \begin{array}{cc} (T+1)(2T+1) & -3(T+1) \\ -3(T+1) & 6 \\ \end{array} \right]\)

    3. \(\displaystyle\hat{\beta}_0=\frac{2}{T(T-1)}\left[(2T+1)\sum^T_{t=1}y_t-3\sum^T_{t=1}ty_t \right]\)

      \(\displaystyle\hat{\beta}_1=\frac{6}{T(T^2-1)}\left[2\sum^T_{t=1}ty_t-(T+1)\sum^T_{t=1}y_t \right]\)

    4. \(\displaystyle\text{Var}(\hat{y}_{t})=\hat{\sigma}^2\left[1+\frac{2}{T(T-1)}\left(1-4T-6h+6\frac{(T+h)^2}{T+1}\right)\right]\)