5.9 相关关系、因果关系和预测

相关关系和因果关系

切记不要将相关关系和因果关系或预测与因果关系混淆。相关关系不等同于因果关系。变量 \(x\) 可能会对预测变量 \(y\) 的值非常有用,但这并不意味这 \(x\) 的发生导致 \(y\) 的发生。有可能是 \(x\) 导致 \(y\) ,或者是 \(y\) 导致 \(x\) ,亦或是比因果关系更复杂的关系。

例如,我们可以使用同一时期内销售的冰淇淋数量来对每个月海滩度假村的溺水次数进行回归建模。该模型可以给出合理的预测,但不是因为冰淇淋会导致溺水,而是因为人们在较炎热的日子里会吃更多的冰淇淋同时也会更频繁的去游泳。因此,两个变量(冰淇淋销售量和溺水次数)是相关关系,但其中一个变量的变化不会导致另一个变量的变化,它们的变化都是由第三个变量(温度)的变化导致的。

同样的,通过观察早上道路上骑自行车的人数,可以预测下午是否下雨。当骑车人比平常少时,当天晚些时候更容易下雨。 该模型可以给出合理的预测,因为当发布的天气预报是晴天时,人们更有可能骑自行车。 在这种情况下,存在因果关系。但当我们从相反的角度进行预测时,会得到相反的结论:由于有降雨预报,骑车人数下降。 也就是说, \(x\)(降雨)会影响 \(y\)(骑自行车的人数)。

即使两个变量之间不存在因果关系,理解相关性的意义也对模型的预测会有很大帮助。

然而,当我们清楚的知道各变量之间的因果关系,我们可以建立更好的模型。例如,更好的溺水预测模型可能包括温度和游客数量,并剔除冰淇淋销售量;更好的降雨预测模型将排除骑自行车人数,加入前几天的天气观测数据。

混淆变量

假设我们使用2000年至2011年的数据预测2012年公司的月度销售额。在2008年1月,一位新的竞争者进入市场并开始占据一些市场份额,与此同时,经济开始下滑。在我们的模型中,包括竞争者活动(使用当地电视台的广告时间衡量)和经济健康状况(使用 GDP 衡量)。但是这两个变量之间是相关的,不可能完全将这两个变量分隔开来。当不同变量对被预测变量的影响无法分离时会产生混淆。事实上,任何一对相关预测变量都会有一定程度的混淆,但只有当两预测变量之间的相关性较高时,才把它们当作混淆变量处理。

由于我们无需分隔预测变量的影响而对被预测变量进行预测,因此混淆并不会严重的影响预测结果。但混淆变量会对情景预测产生较大影响,这是因为情景预测中需要考虑变量之间的关系。如果需要分析各个预测变量对预测结果的贡献,混淆变量也会是一个棘手的问题。

多重共线性及预测

与预测密切相关的问题是多重共线性,当多元回归中的两个或多个预测变量高度相关时就会导致模型存在多重共线性问题。

当两个预测变量彼此高度相关时(即,它们的相关系数接近+1或-1),就会导致模型出现多重共线性。在这种情况下,假如我们知道其中一个变量的信息,那么同时我们也知道了另一个变量的大部分信息。 例如,利用脚的尺寸可用于预测身高,但在同一模型中同时引入左脚和右脚的尺寸并不会使预测更好。

当预测变量的线性组合与预测变量的另一个线性组合高度相关时,也可能导致多重共线性。在这种情况下,由于两组预测变量提供类似的信息,那么当我们知道第一组预测变量值的同时也会得到很多关于第二组预测变量值的信息。

回到5.4节中虚拟变量陷阱的例子。若我们对季度数据引入四个虚拟变量 \(d_1\)\(d_2\)\(d_3\)\(d_4\) 。显然 \(d_4=1-d_1-d_2-d_3\) ,因此 \(d_4\)\(d_1+d_2+d_3\) 之间存在完全相关性。

对于完全线性相关的情况(即相关系数为+1或-1,例如虚拟变量陷阱),不能对回归模型进行估计。

如果存在高度相关性(十分接近但不等于+1或-1),此时回归系数的估计是比较困难的。实际上,某些软件(尤其是 Microsoft Excel)可能会给出不准确的估计值。一些质量较高的软件,例如 R,SPSS,SAS和 Stata 等,都会采用估算算法来尽可能避免这个问题。

当存在多重共线性时,单个预测变量的回归系数的不确定性会很大。因此,回归系数的统计检验(例如 t 检验)是不可靠的。 此外,无法准确说明单个预测变量对被预测变量预测值的贡献。

如果未来预测变量的值超出预测变量的历史值范围,那么模型的预测结果是不可靠的。例如,假设我们已经拟合一个回归模型,其中预测变量 \(x_1\)\(x_2\) 高度相关,并假设拟合数据中的 \(x_1\) 值介于0和100之间。那么基于 \(x_1>100\)\(x_1<0\) 的预测结果将会十分不可靠。当预测变量的未来值远远超出历史范围时,尤其当当存在多重共线性时,这会对模型的预测结果产生巨大影响,导致预测结果不准确。

需要注意,当采用质量较高的统计软件,如果对每个预测变量的具体贡献不感兴趣,预测变量的未来值在其历史范围内,且预测变量之间不存在完全相关性,则无需过度担心多重共线性的问题。