1.1 예측 될 수 있는 것이란?

많은 경우에 예측이 필요합니다. 향후 5년 안에 발전소를 지을지 말지 결정하려면 미래 수요 예측이 필요합니다. 콜센터에서 직원 일정을 조율하려면 통화량 예측이 필요합니다. 재고를 관리하려면 공급량 예측이 필요합니다. (자본 투자의 경우에는) 몇 년 앞 예측이 필요할 수 있고, (통신 경로의 경우에는) 단지 몇 분 앞 예측이 필요할 수 있습니다. 관련된 상황이나 시간적 범위가 무엇이든, 효율적이며 효과적인 계획을 세우는데 예측은 큰 도움이 됩니다.

상대적으로 예측하기 쉬운 것도 있습니다. 내일 아침에 해가 뜰 시간은 정확하게 예측할 수 있습니다. 반대로, 내일 로또 당첨 번호는 정확하게 예측할 수 없습니다. 어떤 사건이나 수량의 예측가능성은 다음과 같은 몇 가지 요인에 의존합니다.

  1. 영향을 주는 요인을 얼마나 잘 이해할 수 있는지
  2. 사용할 수 있는 데이터가 얼마나 많은지
  3. 예측이 우리가 예측하려는 것에 영향을 줄 수 있는지 여부

예를 들면, 전기 수요 예측의 경우는 보통 세 가지 조건이 모두 만족되기 때문에 상당히 정확할 수 있습니다. 우리는 전기 수요가 기온에 영향을 크게 받고, 휴일이나 경제적인 요인에 의해 영향을 적게 받는다는 사실을 잘 알고 있습니다. 전기 수요와 날씨 상황에 대해 시간에 따른 충분한 데이터가 있고, 전기 수요와 핵심 변수를 관련지어 잘 설명할 수 있는 모델을 세울 수 있는 기술도 있어서, 놀라울 정도로 정확하게 예측할 수 있습니다.

반대로, 환율 예측의 경우에는 사용할 수 있는 데이터가 충분히 많다는 한 가지 조건만 만족됩니다. 하지만, 환율에 영향을 주는 요인을 잘 모르고, 환율 예측은 환율 자체에 직접적으로 영향을 주기도 합니다. 만약에, 환율이 증가할 것이라는 예측이 아주 잘 공개된다면, 사람들은 즉시 가격을 조정할 것입니다. 즉, 사람들이 돈을 기꺼이 지불하는 상황이 벌어져, 예측 자체 때문에 예측이 맞는 상황이 되고 맙니다. 이러한 의미에서, 환율은 점점 스스로를 예측하게 되는 셈입니다. 이것은 “효율적인 시장 가설(efficient market hypothesis)”의 한 예입니다. 따라서, 환율이 내일 올라갈지 떨어질지 예측하는 것은 던진 동전이 앞 면으로 떨어질지 뒷 면으로 떨어질지 예측하는 것과 거의 비슷합니다. 두 경우 모두, 무엇을 예측하던지 50% 가까이는 맞을 것입니다. 이러한 경우에, 예측하는 사람은 스스로의 한계를 자각할 필요가 있고, 더 잘 맞추는 것이 가능하다고 주장하지 말아야 할 필요가 있습니다.

종종 예측에 있어서 핵심적인 과정은 정확한 예측이 가능한 때가 언제인지와, 그리고 예측이 큰 의미가 없을 때(예측을 하는 것이 동전을 던진 결과로 의사결정을 하는 것보다 나을 것이 없을 때)가 언제인지를 아는 것입니다. 좋은 예측은 과거 데이터에서 존재하는 진짜 패턴과 관계를 잡아내지만, 다시 반복되지 않을 과거 사건을 정확히 모사하지는 않습니다. 이 책에서는 과거 데이터에서 무시해야하는 무작위적인 요동과 모델링하고 외삽(extrapolate)해야 할 진짜 패턴의 차이를 어떻게 구분할 지 공부할 것입니다.

많은 사람이 환경이 변하는 경우에 예측이 불가능할 것이라는 잘못된 방식으로 가정합니다. 모든 환경은 변하고, 좋은 예측 모델은 변하는 방식을 잡아냅니다. 예측할 때 환경이 변하지 않는다는 가정은 잘 사용하지 않습니다. 보통은 환경이 변하는 방식이 미래에도 계속 될 것이라고 가정합니다. 즉, 아주 불안정한 환경은 계속하여 아주 불안정할 것이고, 판매량이 변하는 사업은 계속 판매량이 변할 것이고, 호황과 불황 패턴을 보이는 경제에는 계속하여 호황과 불황이 나타날 것이라는 내용입니다. 예측 모델은 존재하는 상황만이 아니라, 변하는 방식을 잡아내는 것을 목적으로 합니다. 아브라함 링컨(Abraham Lincoln)이 말한 것처럼, “먼저 우리가 어디에 있고 어디로 향하고 있는지 알 수 있다면, 우리는 무엇을 어떻게 할 것인지 더 잘 결정할 수 있을 것입니다.”

예측하는 일은 시간 범위에 따라, 실제 결과를 결정하는 요인에 따라, 데이터의 패턴의 종류에 따라, 그리고 그 밖의 많은 양상에 따라 많이 달라집니다. 예측 기법은 (단순(naïve) 기법이라고 불리는) 가장 최근의 관측값을 예측값로 사용하는 것처럼 단순할 수도 있고, 신경망(neural network)이나 계량경제학적(econometric) 시스템을 다루는 연립방정식처럼 아주 복잡할 수도 있습니다. 어떤 때는, 사용할 수 있는 데이터가 아예 없을 수도 있습니다. 예를 들면, 신제품의 첫 해 판매량을 예측하고 싶다고 하는 상황에는, 당연하게도 예측 작업에 사용할 데이터가 없습니다. 이와 같은 상황에서는 4 장에서 다룰 판단 예측을 사용합니다. 어떤 종류의 데이터를 사용할 수 있는지와 수량의 예측가능성에 따라 사용할 기법이 달라집니다.