6.7 추세와 계절성의 강도를 측정하기

시계열 분해는 시계열에서 추세와 계절성의 강도를 측정하는데 사용할 수 있습니다. (Wang, Smith, & Hyndman, 2006) 시계열 분해를 다음과 같이 적는다는 것을 다시 떠올려봅시다. \[ y_t = T_t + S_{t} + R_t, \] 여기에서 \(T_t\)는 평활된 추세 성분이고, \(S_{t}\)는 계절성 성분, \(R_t\)는 나머지 성분입니다. 추세가 강하게 나타나는 데이터에서는, 계절성으로 조정된 데이터가 나머지 성분보다 훨씬 더 큰 변동성을 나타내야 합니다. 따라서 Var\((R_t)\)/Var\((T_t+R_t)\) 가 상대적으로 작아야 합니다. 하지만 추세가 거의 없거나 아예 없는 데이터의 경우에는, 두 분산값이 근사적으로 같아야 합니다. 따라서 추세의 강도를 다음과 같이 정의합니다: \[ F_T = \max\left(0, 1 - \frac{\text{Var}(R_t)}{\text{Var}(T_t+R_t)}\right). \] 이 식을 통해 추세의 강도를 0과 1 사이 값으로 얻을 수 있습니다. 나머지 성분의 분산이 계절성으로 조정된 데이터의 분산보다 훨씬 더 클 수 있기 때문에, \(F_T\)의 가능한 최소값을 0으로 두었습니다.

계절성의 강도를 비슷하게 정의합니다만, 계절성으로 조정된 데이터보다는 추세를 제거한 데이터에 대해: \[ F_S = \max\left(0, 1 - \frac{\text{Var}(R_t)}{\text{Var}(S_{t}+R_t)}\right). \] 시계열의 계절성 강도 \(F_S\)가 0에 가까우면 거의 계절성이 없다는 것을 의미하고, Var\((R_t)\)이 Var\((S_{t}+R_t)\)에 비해 훨씬 작을 것이기 때문에 시계열에서 계절성이 강하게 나타나면 \(F_S\)가 1에 가깝게 나타날 것입니다.

이러한 측정량은 유용할 수 있습니다. 예를 들면, 데이터에 시계열 개수가 많은 경우에 가장 추세가 강한 것이나 가장 계절성이 강한 시계열을 찾아야 할 때 말입니다.

참고 문헌

Wang, X., Smith, K. A., & Hyndman, R. J. (2006). Characteristic-based clustering for time series data. Data Mining and Knowledge Discovery, 13(3), 335–364. https://robjhyndman.com/publications/ts-clustering/