5.1 선형 모델

단순 선형 회귀

가장 간단한 경우에는, 회귀 모델이 목표 예상변수(forecast variable) \(y\)와 하나의 예측변수(predictor variable) \(x\) 사이의 선형 관계를 다룹니다. \[ y_t = \beta_0 + \beta_1 x_t + \varepsilon_t. \] 그림 5.1 는 이러한 모델로부터 얻은 인위적인 예제 데이터를 보여줍니다. 계수 \(\beta_0\)\(\beta_1\)는 각각 직선의 절편과 기울기를 나타냅니다. 절편 \(\beta_0\)\(x = 0\)에서 \(y\)의 예측값을 나타냅니다. 기울기 \(\beta_1\)\(x\)가 1만큼 증가했을 때 \(y\)의 예측된 변화를 의미합니다.

단순 선형 회귀 모델로 얻은 예제 데이터.

Figure 5.1: 단순 선형 회귀 모델로 얻은 예제 데이터.

관측값이 직선 위에 놓인 것이 아니라 주위에 퍼져있다는 것에 주목하시길 바랍니다. 모델의 체계적인(systematic) 부분 또는 설명된(explained) 부분을 포함하는 각 관측값 \(y_t\), \(\beta_0+\beta_1x_t\), 무작위 “오차(error)” \(\varepsilon_t\)를 생각해볼 수 있습니다. “오차(error)”라는 단어는 실수를 의미하는 것이 아니라, 관측값이 기본 직선 모델로부터 얼마나 떨어져 있는지를 의미합니다.

예제: 미국 소비 지출

그림 5.2은 1970 Q1부터 2016 Q3까지 미국의 실제 개인 소비 지출(real personal consumption expenditure), \(y\), 과 실제 개인 가처분소득(real personal disposable income), \(x\),의 분기별 백분율 변화량 시계열을 나타냅니다.

colnames(uschange)[1:2] <- c("소비", "소득")
autoplot(uschange[,c("소비", "소득")]) +
  ylab("% 변화") + xlab("연도") +
  guides(colour=guide_legend(title=" "))
미국 개인 소비 지출 및 개인 소득의 백분율 변화.

Figure 5.2: 미국 개인 소비 지출 및 개인 소득의 백분율 변화.

그림 5.3은 소득 변화에 따른 소비 변화 산점도(scatterplot)를 추정된 회귀선과 함께 보여줍니다. \[ \hat{y}_t=0.55 + 0.28x_t. \] (추정치 또는 예측치를 나타내는 \(y\) 위에 “모자(hat)” 기호를 추가했습니다. 이것이 모델로 예측한 \(y\) 값입니다.)

uschange %>%
  as.data.frame() %>%
  ggplot(aes(x=Income, y=Consumption)) +
    ylab("소비 (분기별 % 변화)") +
    xlab("소득 (분기별 % 변화)") +
    geom_point() +
    geom_smooth(method="lm", se=FALSE)
#> `geom_smooth()` using formula 'y ~ x'
소비 지출의 분기별 변화 대 개인 소득의 분기별 변화의 산점도와 적합 회귀선.

Figure 5.3: 소비 지출의 분기별 변화 대 개인 소득의 분기별 변화의 산점도와 적합 회귀선.

이 식은 R에서 tslm 함수로 추정한 것입니다:

tslm(Consumption ~ Income, data=uschange)
#> 
#> Call:
#> tslm(formula = Consumption ~ Income, data = uschange)
#> 
#> Coefficients:
#> (Intercept)       Income  
#>       0.545        0.281

tslm()이 계수를 계산하는 방식은 5.2 절에서 다루겠습니다.

적합선(fitted line)은 양(+)의 기울기를 갖습니다. 이는 소득과 소비 사이의 양의 관계를 반영합니다. 기울기 계수는 \(x\)가 1만큼 증가할 때(개인 가처분 소득이 1퍼센트 증가할 때) \(y\)가 평균적으로 증가하는 것(개인 소비 지출이 평균적으로 0.28퍼센트 증가하는 것)을 나타냅니다. 추정된 식은 \(x\)값 1이(개인 가처분 소득의 백분율 증가) \(y\)에 대한 예측값 \(0.55 + 0.28 \times 1 = 0.83\) (개인 소비 지출의 백분율 증가)으로 이어지는 것을 나타내기도 합니다.

\(x=0\) 값이 이해되어야 Y절편을 해석할 수 있습니다. \(x=0\)일 때(즉, 마지막 분기부터 개인 가처분 소득에 변화가 없을 때), \(y\)의 예측된 값은 0.55 (즉, 개인 소비 지출 평균 증가량 0.55%) 입니다. \(x=0\)이 이해되지 않을 때도, Y절편은 모델에서 중요한 부분입니다. Y절편 없이는 기울기 계수가 불필요하게 왜곡될 수 있습니다. “원점을 지나는” 회귀선이라는 제한 조건이 없어도 Y절편은 항상 포함되어야 합니다. 지금부터는 모델에 Y절편이 항상 포함되어있다고 가정합니다.

다중 선형 회귀

두 개 이상의 예측변수(predictor variable)가 있을 때, 모델을 다중 회귀 모델(multiple linear regression)이라고 부릅니다. 다중 회귀 모델의 일반적인 형태는 다음과 같습니다. \[\begin{equation} y_t = \beta_{0} + \beta_{1} x_{1,t} + \beta_{2} x_{2,t} + \cdots + \beta_{k} x_{k,t} + \varepsilon_t, \tag{5.1} \end{equation}\] 여기에서 \(y\)는 예측될 목표 예상변수(forecast variable)이고, \(x_{1},\dots,x_{k}\)들은 \(k\)개의 예측변수(predictor variable)입니다. 예측변수(predictor variable) 각각은 숫자 형태이어야만 합니다. 계수 \(\beta_{1},\dots,\beta_{k}\)은 모델에서 다른 모든 예측변수(predictor variable)의 효과를 고려한 후의 각 예측변수의 효과를 나타냅니다. 따라서, 계수는 예측변수(predictor variable)의 한계 효과(marginal effects)를 나타냅니다.

예제: 미국 소비 지출

그림 5.4은 미국 소비 지출 예측에 유용할 수 있는 추가적인 예측변수(predictor vvariable)를 나타냅니다. 이러한 예측변수(predictor variable)에는 산업 생산, 개인 저축의 분기별 백분율 변화, 분기별 실업률(이것은 정의상 백분율) 변화 등이 있습니다. 소비 지출이 개인 소득에만 의존하는 것이 아니라 다른 예측변수(predictor variable)에도 의존할 것이라고 예상하는 것처럼, 다중 선형 회귀 모델을 세우는 것은 잠재적으로 더 정확한 예측값을 낼 수 있습니다.

미국 산업 생산, 개인 저축, 실업률 분기별 백분율 변화를 1960년 1분기부터 2016년 3분기까지 나타낸 것.

Figure 5.4: 미국 산업 생산, 개인 저축, 실업률 분기별 백분율 변화를 1960년 1분기부터 2016년 3분기까지 나타낸 것.

그림 5.5 은 5개 변수의 산점도 행렬(scatterplot matrix)입니다. 첫 번째 열은 목표 예상변수-forecast variable-(소비; consumption)와 각 예측변수(predictor variable) 사이의 관계를 나타냅니다. 산점도(scatter plot)는 소득과 산업 생산과의 양의 관계, 저축과 실업률과의 음의 관계를 나타냅니다. 이러한 관계의 강도는 첫 번째 행에 따라 상관 계수(correlation coefficient)로 나타내었습니다. 나머지 산점도와 상관 계수(correlation coefficient)는 예측변수(predictor variable) 사이의 관계를 나타냅니다.

colnames(uschange) <- c("소비", "소득", "생산", "저축", "실업률")
uschange %>%
  as.data.frame() %>%
  GGally::ggpairs()
미국 소비 지출 산점도 행렬과 네 가지 예측변수.

Figure 5.5: 미국 소비 지출 산점도 행렬과 네 가지 예측변수.

가정

선형 회귀 모델을 사용할 때, 식 (5.1)에서는 변수에 대한 몇 가지 가정을 암시적으로 사용하고 있습니다.

첫 번째, 모델은 현실에 대한 타당한 근사식이고; 즉, 목표 예상변수(forecast variable)와 예측변수(predictor variable) 사이의 관계는 이러한 선형 관계식을 만족한다는 것입니다.

두 번째, 오차(error) \((\varepsilon_{1},\dots,\varepsilon_{T})\)에 대해 다음과 같은 가정을 사용합니다:

  • 오차의 평균은 0입니다; 그렇지 않으면, 예측값이 체계적으로 편향될 것입니다.
  • 오차에는 자기상관관계(autocorrelation)가 없습니다; 그렇지 않으면, 데이터에 악용될 수 있는 정보가 더 많아서 예측값이 비효율적으로 될 것입니다.
  • 오차는 예측변수(predictor variable)와 상관관계(correlation)가 없습니다; 그렇지 않은 경우에는 모델의 체계적인 부분에 포함되어야 할 정보가 더 있을 수 있습니다.

예측 구간(prediction interval)을 쉽게 내기 위해 오차가 일정한 분산값 \(\sigma^2\)을 가지는 정규 분포(normal distribution)를 나타낸다고 가정하는 것도 유용합니다.

선형 회귀 모델에서 또 하나의 중요한 가정은 각 예측변수(predictor variable) \(x\)는 확률 변수(random variable)가 아니라는 것입니다. 실험실에서 통제된 실험을 하고 있는 상황에서는, 각 \(x\) 값을 통제할 수 있고 (그래서 무작위적일 수 없습니다) 결과 \(y\) 값을 관측할 수 있습니다. (비즈니스 및 경제 분야의 대부분의 데이터를 포함한) 관측 데이터로 \(x\) 값을 통제하는 것은 불가능하고 단순히 관측할 뿐입니다. 따라서 이러한 가정을 사용합니다.