3.7 연습문제
다음의 시계열에 대해, 분산을 안정화하기 위해 적절한 박스-칵스(Box-Cox) 변환을 찾아봅시다.
usnetelec
usgdp
mcopper
enplanements
cangas
데이터를 다룰 때 왜 박스-칵스(Box-Cox) 변환이 도움이 안 됩니까?(2.10 절의 문제 3에서) 여러분의 소매 데이터에 대해 어떤 박스-칵스(Box-Cox) 변환을 선택할 것입니까?
다음의 시계열 각각에 대해, 데이터로 그래프를 그려봅시다:
dole
,usdeaths
,bricksq
. 변환하는 것이 적절한 것 같으면, 시도해보고 효과를 설명해봅시다.1992년부터의 호주 분기별 맥주 생산량 데이터에 계절성 단순 예측(seasonal naïve forecast)을 적용하여 얻은 잔차를 계산해봅시다. 다음의 코드가 도움이 될 것입니다.
<- window(ausbeer, start=1992) beer <- snaive(beer) fc autoplot(fc) <- residuals(fc) res autoplot(res)
잔차가 백색잡음이며 정규 분포를 따르는 지 확인해봅시다.
checkresiduals(fc)
여러분의 결론은 무엇입니까?
WWWusage
와bricksq
데이터에서도 같은 문제를 반복해봅시다.naive()
나snaive()
중에서 각각의 경우에 더 적절한 것을 사용해봅시다.다음의 명제들은 참입니까? 거짓입니까? 여러분의 답을 설명해봅시다.
- 좋은 예측 기법은 정규 분포를 따르는 잔차가 있어야 합니다.
- 작은 잔차가 있는 모델은 좋은 예측치를 낼 것입니다.
- 예측의 정확도를 판단하는 가장 좋은 측정량은 MAPE입니다.
- 여러분의 모델이 잘 예측하지 못한다고 할 때, 여러분은 이것을 더 복잡하게 만들어야 합니다.
- 언제나 테스트 데이터에서 측정해서 얻은 가장 좋은 예측 정확도를 내는 모델로 선택합니다.
(2.10 절의 문제 1의) 여러분의 소매 시계열에서
아래의 코드를 사용하여 데이터를 두 부분으로 나눠봅시다.
<- window(myts, end=c(2010,12)) myts.train <- window(myts, start=2011) myts.test
여러분의 데이터가 적절하게 나뉘어졌는지 다음 그래프를 그래서 확인해봅시다.
autoplot(myts) + autolayer(myts.train, series="Training") + autolayer(myts.test, series="Test")
snaive
를x1
에 적용하여 예측치를 계산해보시길 바랍니다.accuracy(fc,myts.test)
x2
에 저장된 실제 값에 대해 여러분 예측치의 정확도를 계산해봅시다.<- snaive(x1) f1 accuracy(f1,x2)
잔차를 확인해봅시다.
checkresiduals(fc)
잔차에 상관관계가 없으며 정규 분포를 따르는 것으로 나타납니까?
정확도 값이 학습/테스트로 나눈 것에 얼마나 민감합니까?
visnights
에는 1998년부터 2016년까지 호주 20개 지역의 분기별 숙박일수(단위: 백만) 정보가 있습니다.visnights[,"QLDMetro"]
의 3개의 학습 데이터를window()
로 만들어봅시다. 여기에서 마지막 1, 2, 3년은 제외합시다. 각각을 train1, train2, train3으로 저장합시다. 예를 들면,train1 <- window(visnights[, "QLDMetro"], end = c(2015, 4))
입니다.snaive()
기법으로 각각의 학습 데이터의 1년 예측값을 계산해봅시다. 이것을 각각fc1
,fc2
,fc3
로 둡시다.accuracy()
를 이용하여 MAPE 값으로 3가지 테스트 데이터를 비교하고 설명해봅시다.
다음과 같은 작업을 수행하기 위해 다우 존스 지수(데이터 모음
dowjones
)를 사용합시다:- 시계열의 시간 그래프를 그려봅시다.
- 표류 기법으로 예측값을 내고 이것을 그려봅시다.
- 예측값이 첫 번째와 마지막 예측치 사이에 선을 그린 것과 같다는 것을 증명해봅시다.
- 몇 가지 다른 벤치마크 함수로 같은 데이터 모음을 예측해보시길 바랍니다. 어떤 것이 가장 좋다고 생각하십니까? 왜 그렇게 생각하십니까?
IBM 주식의 매일 마지막 가격(종가) 데이터를 다뤄봅시다(데이터 모음
ibmclose
).- 이 데이터에 익숙해지도록 데이터를 가지고 몇 가지 그래프를 그려봅시다.
- 데이터의 300개의 관측값을 학습 데이터로 69개의 관측값을 테스트 데이터로 나눠봅시다.
- 학습 모음을 예측하고 테스트 데이터에 대한 결과와 비교하기 위해 다양한 벤치마크 기법을 사용해봅시다. 어떤 기법이 가장 좋았습니까?
- 여러분이 선호하는 기법의 잔차를 확인해봅시다. 백색잡음과 비슷합니까?
1973년 1월부터 1995년 11월까지 미국 개인 독립 주택들의 매매량을 다뤄봅시다(데이터 모음
hsales
).- 이 데이터에 익숙해지도록 데이터를 가지고 몇 가지 그래프를 그려봅시다.
hsales
데이터를 학습 데이터와 테스트 데이터로 나눠봅시다. 여기에서 테스트 데이터는 마지막 2년 데이터로 둡시다.- 학습 데이터를 예측하고 테스트 데이터에 대한 결과와 비교하기 위해 다양한 벤치마크 기법을 사용해봅시다. 어떤 기법이 가장 좋았습니까?
- 여러분이 선호하는 기법의 잔차를 확인해봅시다. 백색잡음과 비슷합니까?