1.7 統計的予測の視点

予測を試みる対象は未知(でなければ、予測などしないでしょう)なので、確率変数と考えることができます。例えば、来月の売上高はある範囲内のあり得る値のどこかになるでしょうが、来月末に売上実績を足し上げるまでは、どの値になったのかは未知です。だから、来月の売上高を知るまでは、それは確率変数です。

来月は比較的近いですから、売上高はおおよそこれくらいという考えを持っているのが普通です。他方、来年の同月の売上高を予測するとなると、あり得る値はずっと幅広いものになります。ほとんどの予測状況では、予測対象事象が近付いて来るにつれて、あり得る値の幅広さは縮小していきます。言い換えれば、遠くを予測するほど、より不確実になるのです。

予測対象が異なった値となる、多くのあり得る将来を想像することができます。図 1.2で、黒い線は1980年から2015年までのオーストラリアへの国際線到着者数の実績値です。また、2016年から2025年の10のあり得る将来も示しています。

オーストラリアへの国際線到着者数 (1980--2015) と10のあり得る将来

図 1.2: オーストラリアへの国際線到着者数 (1980–2015) と10のあり得る将来

予測を得る際は、確率変数が取り得る値の範囲の真ん中を推定しています。予測に区間予測を付けて、比較的高い確率で確率変数が取り得る値のを示すことが、しばしばあります。例えば、95%区間予測は、将来の実績値を95%の確率で含む範囲を示しています。

1.2のように個々のあり得る将来の経路を引くよりも、その代わりにこれらの区間予測を表すのが普通です。図 1.3はオーストラリアへの将来の国際線到着者数の80%と95%の区間予測を示しています。青い線はあり得る将来値の平均で、点予測とも言います。

オーストラリアへの国際線到着者数 (1980–2015) と10年先までの予測と80%と95%の区間予測

図 1.3: オーストラリアへの国際線到着者数 (1980–2015) と10年先までの予測と80%と95%の区間予測

添字\(t\)を時間を表すために使います。例えば、\(y_t\)\(t\)時点での観測値を表します。全ての既知の情報を\(\mathcal{I}\)で表し、\(y_t\)を予測するとします。そして、\(y_{t} | \mathcal{I}\)と書いて、「\(\mathcal{I}\)を知っている前提での確率変数\(y_{t}\)」 を表すことにします。この確率変数が取り得る値の集合とその相対的確率が、\(y_{t} |\mathcal{I}\)の「確率分布」となります。予測においては、これを予測の分布と呼びます。

「予測」と言うとき、通常は予測の分布の平均値を意味し、\(y\)に「ハット」を載せて示します。ですから、\(y_t\)の予測を\(\hat{y}_t\)と書いて、知っていること全てを前提として\(y_t\)が取り得る値の平均値を意味します。

予測算出に用いた情報を厳密に特定しておくのはしばしば有益です。ですから、例えば\(\hat{y}_{t|t-1}\)と書いて、全ての過去の観測値\((y_1,\dots,y_{t-1})\)を考慮した\(y_t\)の予測を意味します。同様に、\(\hat{y}_{T+h|T}\)は、\(y_1,\dots,y_T\)を考慮した\(y_{T+h}\)の予測(つまりは、\(T\)時点までの全ての観測値を考慮した\(h\)期先の予測)を意味します。