12.5 합산 값에 대한 예측 구간

분배한 데이터(disaggregated data)에 적합모델(fitted model)로 데이터의 몇몇 시기의 합산값을 예측하는 것은 흔히 접하게 되는 문제입니다. 예를 들면, 월별 데이터를 가지고 있을 수 있는데, 내년 전체를 예측하고 싶을 수 있기 때문입니다. 또는, 주별 데이터를 가지고 있을 수 있는데, 다음 4주에 전체값을 예측하고 싶을 수 있습니다.

점 예측값이 평균값일 때는, 이 값을 더하면 원하는 전체값에 대한 좋은 추정값이 될 수 있습니다. 하지만, 예측구간은 예측오차 사이의 상관관계 때문에 더 어렵습니다.

일반적인 해결책은 모사(simulation)하는 것입니다. ETS 모델을 호주 월별 가스 생산 데이터에 적용한 예제로 살펴보겠습니다. 다음 6개월 가스 수요의 합산값을 예측하고 싶다고 가정해보겠습니다.

# First fit a model to the data
fit <- ets(gas/1000)
# Forecast six months ahead
fc <- forecast(fit, h=6)
# Simulate 10000 future sample paths
nsim <- 10000
h <- 6
sim <- numeric(nsim)
for(i in seq_len(nsim))
  sim[i] <- sum(simulate(fit, future=TRUE, nsim=h))
meanagg <- mean(sim)

모사한(simulated) 상황의 평균이 각 예측값의 합과 비슷합니다:

sum(fc[["mean"]][1:6])
#> [1] 281.8
meanagg
#> [1] 281.7

예측 구간도 쉽게 얻을 수 있습니다:

#80% interval:
quantile(sim, prob=c(0.1, 0.9))
#> 10% 90% 
#> 263 301
#95% interval:
quantile(sim, prob=c(0.025, 0.975))
#>  2.5% 97.5% 
#> 254.1 311.4