3.7 연습문제

  1. 다음의 시계열에 대해, 분산을 안정화하기 위해 적절한 박스-칵스(Box-Cox) 변환을 찾아봅시다.

    • usnetelec
    • usgdp
    • mcopper
    • enplanements
  2. cangas 데이터를 다룰 때 왜 박스-칵스(Box-Cox) 변환이 도움이 안 됩니까?

  3. (2.10 절의 문제 3에서) 여러분의 소매 데이터에 대해 어떤 박스-칵스(Box-Cox) 변환을 선택할 것입니까?

  4. 다음의 시계열 각각에 대해, 데이터로 그래프를 그려봅시다: dole, usdeaths, bricksq. 변환하는 것이 적절한 것 같으면, 시도해보고 효과를 설명해봅시다.

  5. 1992년부터의 호주 분기별 맥주 생산량 데이터에 계절성 단순 예측(seasonal naïve forecast)을 적용하여 얻은 잔차를 계산해봅시다. 다음의 코드가 도움이 될 것입니다.

    beer <- window(ausbeer, start=1992)
    fc <- snaive(beer)
    autoplot(fc)
    res <- residuals(fc)
    autoplot(res)

    잔차가 백색잡음이며 정규 분포를 따르는 지 확인해봅시다.

    checkresiduals(fc)

    여러분의 결론은 무엇입니까?

  6. WWWusagebricksq 데이터에서도 같은 문제를 반복해봅시다. naive()snaive() 중에서 각각의 경우에 더 적절한 것을 사용해봅시다.

  7. 다음의 명제들은 참입니까? 거짓입니까? 여러분의 답을 설명해봅시다.

    1. 좋은 예측 기법은 정규 분포를 따르는 잔차가 있어야 합니다.
    2. 작은 잔차가 있는 모델은 좋은 예측치를 낼 것입니다.
    3. 예측의 정확도를 판단하는 가장 좋은 측정량은 MAPE입니다.
    4. 여러분의 모델이 잘 예측하지 못한다고 할 때, 여러분은 이것을 더 복잡하게 만들어야 합니다.
    5. 언제나 테스트 데이터에서 측정해서 얻은 가장 좋은 예측 정확도를 내는 모델로 선택합니다.
  8. (2.10 절의 문제 1의) 여러분의 소매 시계열에서

    1. 아래의 코드를 사용하여 데이터를 두 부분으로 나눠봅시다.

      myts.train <- window(myts, end=c(2010,12))
      myts.test <- window(myts, start=2011)
    2. 여러분의 데이터가 적절하게 나뉘어졌는지 다음 그래프를 그래서 확인해봅시다.

      autoplot(myts) +
        autolayer(myts.train, series="Training") +
        autolayer(myts.test, series="Test")
    3. snaivex1에 적용하여 예측치를 계산해보시길 바랍니다.

      accuracy(fc,myts.test)
    4. x2에 저장된 실제 값에 대해 여러분 예측치의 정확도를 계산해봅시다.

      f1 <- snaive(x1)
      accuracy(f1,x2)
    5. 잔차를 확인해봅시다.

      checkresiduals(fc)

      잔차에 상관관계가 없으며 정규 분포를 따르는 것으로 나타납니까?

    6. 정확도 값이 학습/테스트로 나눈 것에 얼마나 민감합니까?

  9. visnights에는 1998년부터 2016년까지 호주 20개 지역의 분기별 숙박일수(단위: 백만) 정보가 있습니다.

    1. visnights[,"QLDMetro"]의 3개의 학습 데이터를 window()로 만들어봅시다. 여기에서 마지막 1, 2, 3년은 제외합시다. 각각을 train1, train2, train3으로 저장합시다. 예를 들면, train1 <- window(visnights[, "QLDMetro"], end = c(2015, 4))입니다.

    2. snaive() 기법으로 각각의 학습 데이터의 1년 예측값을 계산해봅시다. 이것을 각각 fc1, fc2, fc3로 둡시다.

    3. accuracy()를 이용하여 MAPE 값으로 3가지 테스트 데이터를 비교하고 설명해봅시다.

  10. 다음과 같은 작업을 수행하기 위해 다우 존스 지수(데이터 모음 dowjones)를 사용합시다:

    1. 시계열의 시간 그래프를 그려봅시다.
    2. 표류 기법으로 예측값을 내고 이것을 그려봅시다.
    3. 예측값이 첫 번째와 마지막 예측치 사이에 선을 그린 것과 같다는 것을 증명해봅시다.
    4. 몇 가지 다른 벤치마크 함수로 같은 데이터 모음을 예측해보시길 바랍니다. 어떤 것이 가장 좋다고 생각하십니까? 왜 그렇게 생각하십니까?
  11. IBM 주식의 매일 마지막 가격(종가) 데이터를 다뤄봅시다(데이터 모음 ibmclose).

    1. 이 데이터에 익숙해지도록 데이터를 가지고 몇 가지 그래프를 그려봅시다.
    2. 데이터의 300개의 관측값을 학습 데이터로 69개의 관측값을 테스트 데이터로 나눠봅시다.
    3. 학습 모음을 예측하고 테스트 데이터에 대한 결과와 비교하기 위해 다양한 벤치마크 기법을 사용해봅시다. 어떤 기법이 가장 좋았습니까?
    4. 여러분이 선호하는 기법의 잔차를 확인해봅시다. 백색잡음과 비슷합니까?
  12. 1973년 1월부터 1995년 11월까지 미국 개인 독립 주택들의 매매량을 다뤄봅시다(데이터 모음 hsales).

    1. 이 데이터에 익숙해지도록 데이터를 가지고 몇 가지 그래프를 그려봅시다.
    2. hsales 데이터를 학습 데이터와 테스트 데이터로 나눠봅시다. 여기에서 테스트 데이터는 마지막 2년 데이터로 둡시다.
    3. 학습 데이터를 예측하고 테스트 데이터에 대한 결과와 비교하기 위해 다양한 벤치마크 기법을 사용해봅시다. 어떤 기법이 가장 좋았습니까?
    4. 여러분이 선호하는 기법의 잔차를 확인해봅시다. 백색잡음과 비슷합니까?