1.4 预测数据和方法

在大程度上,什么数据是可用的决定了适合什么合适的预测方法。

如果没有可用的数据,或者如果可用的数据与预测无关,那么应该使用定性预测方法。这些方法不是纯粹的猜测—有完善的结构化方法来获得良好的预测, 而不使用历史数据。这些方法在章节 4 中进行了讨论。

在满足以下两个条件的时候可以使用定量预测

  1. 关于过去的数字化信息是可以用的;
  2. 有理由假设过去的一些模式会在未来延续下去。

有各种各样的定量预测方法,这些方法通常是在特定的学科范围为特定的目的而开发的。每一种方法都有自己的属性、精度和成本,这些应该在方法选择时考虑到。

大多数定量预测问题都使用时间序列数据 (按时间间隔定期收集) 或横截面数据 (在一个时间点收集)。在本书中,我们关注预测未来的数据,并且我们主要专注于时间序列领域。

时间序列预测

时间序列数据样例包括:

  • IBM每日股票价格
  • 每月降水量
  • 亚马逊季度销售结果
  • 谷歌年度利润

任何按照时间顺序观察的事物都是时间序列。在本书中,我们将只考虑定期观察的时间序列 (例如,每小时、每天、每周、每月、每季度、每年)。不规则间隔时间序列也可能出现,但是超出了本书的范围。

在预测时间序列数据时, 目的是估计观测序列将如何持续到未来。图 1.1 显示从1992年到2010年第二季度的澳大利亚季度啤酒产量。

澳大利亚季度啤酒产量: 1992年第一季度至2010年第二季度, 及对未来两年的预测

图 1.1: 澳大利亚季度啤酒产量: 1992年第一季度至2010年第二季度, 及对未来两年的预测

蓝线显示未来两年的预测。请注意这些预测是如何捕捉到历史数据中的季节性规律,并将其在未来两年的预测中沿用的。深色阴影区域表示了80%的预测区间。这也就是说,每个未来的值预期落在深色阴影区域的概率为80%。浅色阴影区域表示了95%的预测区间。这些预测区间是显示预测中的不确定性的有用方法。在这种情况下,预测将会是十分准确的,因此预测区间较为狭窄。

最简单的时间序列预测方法只用了预测变量的信息,而不去寻找影响预测变量的因素。因此,这些方法可以推断趋势部分和季节性部分,但是它们会忽略掉所有其他的信息,如营销计划,竞争对手活动,经济状况变动等。

用于预测的时间序列模型包括分解模型,指数平滑模型,ARIMA 模型。这些模型分别在章节 678 中进行了分析探讨。

预测变量与时间序列预测

通常预测变量在时间序列预测中是有用的。例如,假设我们想要预测炎热地区夏季时每小时用电需求量。 可以用如下包含预测变量的模型: \[\begin{align*} \text{ED} = & f(\text{当前气温,经济实力,人口}\\ & \qquad\text{当日时间,星期几,误差}). \end{align*}\] 这种关系并不确切–总会有不能由预测变量决定的电力需求变化。右侧的“误差”项表示随机波动和没有被包括在模型中的相关变量的影响。我们将它称之为“解释模型”,因为它帮助解释电力需求变化的原因。

因为电力需求数据构成了一组时间序列,我们也可以用一个时间序列模型来进行预测。在这种情况下,一个合适的时间序列模型可以为如下形式: \[ \text{ED}_{t+1} = f(\text{ED}_{t}, \text{ED}_{t-1}, \text{ED}_{t-2}, \text{ED}_{t-3},\dots, \text{误差}), \] \(t\)表示当前的时间,\(t+1\)表示下一个小时,\(t-1\)表示前一个小时,\(t-2\)表示前两个小时,以此类推。此处,对未来的预测是基于变量的过去值,而不是基于可能影响系统的外部变量。同样,右侧的“误差”项允许随机波动和不包含在模型中的相关变量的影响。

还有第三种模型, 它结合了上述两种模型的特点。例如, 它可能有如下形式 \[ \text{ED}_{t+1} = f(\text{ED}_{t}, \text{当前气温,当日时间,星期几,误差}). \] 这些类型的“混合模型”在不同的学科中给出了不同的名称。它们被称为动态回归模型、面板数据模型、纵向模型。传递函数模型和线性系统模型(假设\(f\) 是线性的)。这些模型在章节 9 中进行了讨论。

解释模型非常有用,因为它包含了有关其他变量的信息,而不仅仅是要预测的变量的历史值。但是, 预测者可能选择时间序列模型而不是解释性或混合模型的原因有多种。首先,这一系统可能不被理解,即使被理解,也很难衡量被认为应该管理行为的关系。其次,有必要知道或预测各种预测因子的未来价值, 以便能够预测有意义的变量, 但是这可能太难了。第三, 可能主要只是关注预测会发生什么,而不知道为什么会发生。最后,时间序列模型可以提供比解释或混合模型更准确的预测。

在预测中使用的模型取决于可用的资源和数据、模型的准确性以及预测模型的使用方式。