2.2 시간 그래프
시계열 데이터에서, 가장 먼저 그려야 할 것은 시간 그래프(time plot)입니다. 즉, 관측값을 관측 시간에 따라 인접한 관측값을 직선으로 연결하여 그리는 것입니다. 아래의 그림 2.1은 호주에서 가장 큰 두 도시 사이를 운항하는 안셋(Ansett) 항공의 이코노미석 주별 수송량을 나타냅니다.
autoplot(melsyd[,"Economy.Class"]) +
ggtitle("이코노미석 탑승객: 멜버른-시드니") +
xlab("연도") +
ylab("탑승객(단위: 1000명)")

Figure 2.1: Ansett 항공 주별 이코노미석 탑승객.
앞으로 autoplot()
명령어를 자주 사용할 것입니다. 이 명령의 첫 번째 입력값에 여러분이 어떤 것을 넣더라도 적절한 그래프를 자동으로 그려줍니다. 이 경우에 데이터를 시계열로 인식하고, 시간 그래프를 그립니다.
시간 그래프는 몇 가지 재미있는 특징을 바로 보여줍니다.
- 1989년은 파업으로 인하여 수송객이 없었던 기간입니다.
- 1992년은 수송객이 감소했던 기간인데, 이것은 일부 이코노미 좌석이 비지니스 좌석으로 교체되었기 때문입니다.
- 1991년 후반에는 수송객이 크게 증가했습니다.
- 휴가철 효과 때문에 매 연초에 일시적으로 크게 하락하는 몇몇 지점이 있습니다.
- 시계열의 수준(level; 여기에서는 평균값)에서 장기적인 변동(long-term fluctuation)을 살펴볼 수 있는데, 1987년에는 전반적으로 증가하는 추세, 1989년에는 감소 추세, 1990년과 1991년을 지나면서 다시 증가하는 추세를 확인할 수 있습니다.
- 관측값이 없는 기간도 일부 있습니다.
효과적으로 미래 승객수를 예측하기 위해 이러한 특징 전부를 모델에서 고려해야할 것입니다.
그림 2.2에는 좀 더 단순한 시계열이 있습니다.
autoplot(a10) +
ggtitle("당뇨병 약 매출") +
ylab("매출(단위: 백만 달러)") +
xlab("연도")

Figure 2.2: 호주 당뇨병 약 월별 매출.
분명하게 증가하는 추세를 이 그림에서 확인할 수 있습니다. 시계열의 수준이 증가함에 따라 계절성 패턴의 크기 역시 뚜렷하게 증가합니다. 매년 연초마다 의약품 매출이 급감하는데, 이것은 환자들이 연말에 저렴하게 의약품을 비축할 수 있도록 하는 정부의 보조금 정책 때문입니다. 이 시계열을 이용하는 어떤 예측이라도 위에서 언급한 계절성 패턴과 더불어 변화의 추세가 느리다는 사실을 그 예측치 안에 담아내야 할 것입니다.