1.4 予測に用いるデータと手法

どんなデータが入手可能かで、適切な予測手法は大概決まります。

もし入手可能なデータがない、あるいは、入手可能なデータは予測に無関係なものしかない場合、質的予測 手法を用いるしかありません。この手法は単なる当てずっぽうではありません。過去データを使うことなく良い予測を得るための、巧みに開発された構造化されたアプローチが存在します。この手法については6章で議論します。

以下の2つの条件を満たす場合には、量的予測が適用できます。

  1. 過去の数値情報が入手可能なこと
  2. 過去のパターンのうち将来にわたって継続するものがあると前提するのが、理に適っていること

量的予測には、しばしば特定の分野で特定の目的のために開発された、幅広い手法があります。各手法には独自の性質、正確さ、コストがあり、手法の選択ではそれらを考慮しなければなりません。

ほとんどの量的予測問題は、(一定の時間間隔で収集した)時系列データか、(ある一時点で収集した)横断面データ(クロスセクションデータ)を使用します。本書は、将来データの予測に関心があるので、時系列の分野に集中します。

時系列予測

時系列データの例として、次のようなものがあります。

  • Googleの年間利益
  • Amazonの四半期売上高
  • 月次の降雨量
  • 週次の小売売上高
  • 日次のIBM株価
  • 時間ごとの電力需要
  • 5分ごとの高速道路交通量
  • 時刻印を付けられた株式取引データ

経時的に観測されたものは何であれ時系列なのですが、本書では、一定の時間間隔(例えば、時間ごと、日次、週次、月次、四半期、年次)で観測された時系列のみを扱うことにします。一定でない時間間隔の時系列もあるのですが、本書の範囲を超えています。

時系列データを予測する際の目的は、観測値の一連の動きがどのように将来つながっていくか見通すことです。図1.1 は、オーストラリアの2000年から2010年第2四半期までの四半期ビール生産量です。

オーストラリア四半期ビール生産量:2000年第1四半期から2010年第2四半期までの実績と2年先までの予測

図 1.1: オーストラリア四半期ビール生産量:2000年第1四半期から2010年第2四半期までの実績と2年先までの予測

青い線が2年先までの予測です。過去データに観測される季節パターンを予測がどう取り込んで2年先まで複製しているか、見て取れます。濃い網掛け部分は80%区間予測を表しています。つまり、将来の値は80%の確率で濃い網掛け部分内にあるはずだ、ということです。薄い網掛け部分は95%区間予測を表しています。区間予測は予測の不確実性を示すのに役立ちます。今回の場合、予測は正確で、従って区間予測の幅はとても狭くなっています。

最も簡素な時系列予測手法は、予測対象変数の情報だけを使い、その動きに影響する要因を見つけ出そうとはしません。従って、トレンドと季節パターンは外挿しますが、販促活動、競合他社の動向、経済情勢の変化など他の情報は全て無視するのです。

3章で議論する分解手法は時系列中のトレンドと季節パターンを分析する助けになります。。指数平滑化モデルとARIMAモデルを含む予測に広く使用されている時系列モデルについては、それぞれ8章と9章で議論します。

予測変数と時系列予測

予測変数が時系列予測に役立つことがしばしばあります。例えば、暑い地域の夏季における時間ごとの電力需要(ED)を予測したいとします。予測変数を用いたモデルは、 \[\begin{align*} \text{ED} = & f(\text{現在の気温, 経済の強さ, 人口,}\\ & \qquad\text{時刻, 曜日, 誤差}) \end{align*}\] といった格好になるでしょうか。この関係は厳密なものではありません。ここに挙げた予測変数では説明できない電力需要の変動はいつでもあるでしょう。一番右の「誤差」項のおかげで、ランダムな変動やモデルに含めなかった関連する変数の効果をそこに含めることができます。何が電力需要変動を引き起こしているのか説明する助けになるので、これを説明モデルと呼びます。

電力需要データは時系列の形式ですから、時系列予測モデルを用いることもできます。その場合、適した時系列予測方程式は、 \[ \text{ED}_{t+1} = f(\text{ED}_{t}, \text{ED}_{t-1}, \text{ED}_{t-2}, \text{ED}_{t-3},\dots, \text{誤差}) \] で、\(t\)は現在の時間、\(t+1\)は1時間後、\(t-1\)は1時間前、\(t-2\)は2時間前、といった具合になります。ここでは、将来予測は予測対象変数の過去値に基づくだけで、影響するかもしれない外部変数には基づきません。ここでも、一番右の「誤差」項のおかげで、ランダムな変動やモデルに含めなかった関連する変数の効果をそこに入れることができます。

3つ目のタイプのモデルとして、上記2つのモデルの特性を組み合わせたものがあります。例えば、こんなものです。 \[ \text{ED}_{t+1} = f(\text{ED}_{t}, \text{現在の気温, 時刻, 曜日, 誤差}) \] こうしたタイプの「混合モデル」は、研究領域ごとにさまざまな名前で呼ばれています。動学回帰モデル、パネルデータ・モデル、縦断(longitudinal)モデル、伝達関数モデル、(\(f\)が線形とう前提で)線形システム・モデルなどです。これらのモデルについては、10節で議論します。

説明モデルは、予測対象変数の過去データだけでなく、外部変数の情報も取り込むので有益です。しかし、説明モデルや混合モデルよりも、時系列モデルを選択する理由がいくつかあります。第一に、システムが理解不能であったり、理解できたところでその動きを支配する関係性が極端に測定困難であったりする場合です。第二に、予測対象変数の予測以前に、予測能力のありそうなさまざまな外部変数の将来値を知る、もしくは、予測する必要があるためです。第三に、将来どうなるかの予測のみに主に関心があって、どうしてそうなるのかには関心がない場合です。最後に、説明モデルや混合モデルよりも、時系列モデルの予測の方がより正確となり得るためです。

予測に用いるモデルの選択は、入手可能な資源とデータ、競合する他のモデルの正確さ、予測モデルの使われ方によることになります。