Excel_데이터/회귀분석

엑셀에서 다중 선형회귀분석(Multiple Linear Regression) 하기

palefaceman 2021. 5. 2. 16:56

다중 선형 회귀분석(Multiple Linear Regression)은 두 개 이상의 원인 변수(Explanatory variable)와 반응 변수(reponsive variable) 사이에 관계를 알아볼 때 사용하는 분석이다.

이번 포스팅에서 엑셀에서 다중 선형회귀분석(Multiple Linear Regression)을 시행해본다.

만약에 원인 변수(explanatory variable)가 하나가 있다면 선형 회귀분석(simple Linear regression)을 한다.

예시: 엑셀에서 다중 선형회귀분석(Multiple Linear Regression)하기

학생들의 공부시간과 지난 기출문제가 시험 성적과 어떤 관계가 있는 파악하고 싶다. 그래서 '공부시간'과 '기출문제'를 원인 변수(explanatory variable)로, '시험 성적'을 반응 변수(reponsive variable)로 해서 다중 선형회귀분석(Multiple Linear Regrsesion)을 시행한다.

엑셀에서 아래단계별로 따라가면서 다중 선형회귀분석(Multiple Linear Regrsesion)을 한다.

1단계: 데이터 입력

공부시간, 기출문제 수, 시험점수에 데이터를 엑셀에 입력한다.

2단계: 다중 선형회귀분석(Multiple Linear Regression) 하기

데이터 > 데이터분석에 들어간다. 데이터 분석 툴이 없다면 업로드한다.

데이터 분석 툴 업로드하기

데이터 분석 창에서 회귀분석을 선택한다.

  1. y축 범위에는 반응 변수(reponsive variable), '공부시간', '기출시험 수'를 넣는다. 넣는다.
  2. x축 범위에 원인 변수(explanatory variable)를 넣는다.
  3. Labels 카네 체크 표시한다. 선택범위에 제목으로 첫 번째 칸은 데이터에서 제외된다.
  4. 출력 범위에 임의의 셀을 지정하고 확인을 한다.

아래와 같은 다중 선형 회귀분석(Multiple Linear Regression) 결과를 출력받을 수 있다.

3단계: 결과해석하기

이제 주요 결과물들을 하나하나 해석해본다.

  • 결정계수(R²): 0.734, R²라고 쓰고, 결정계수(coefficient of determination)이다. 이 값은 원인 변수(explanatory variable)로 설명 가능한 반응 변수(response variable)의 변동성을 가리킨다. 예를 들어 지금 예시에서, 73.40%의 '시험 성적(y)'에 변동성이 '공부 시간(x1)'과 '기출문제 수(x2)'로 설명 가능하다. 1로 갈수록 더 정확한 예측이 가능해진다.

  • 표준오차(standard error): 5.366, 이 값은 관측값과 선형 모델 값과의 오차들에 평균이다. 예를 들어, 지금에 선형 모델에서 관측된 시험 점수와 생성된 선형 모델 값 사이에 오차는 평균적으로 5.366 떨어져 있다.

  • F 비: 23.46, 선형 모델의 F 통계량(F statistics)이다. 회귀 제곱 평균(MSR) / 잔차 제곱 평균(MSE), 675.378/28.791 = 23.46

  • Significance F: 0.0000129, F 통계량에 상응하는 p-값(p-value)다. 이 값은 선형 모델이 통계적으로 타당한지 나타낸다. 한 마디로, 원인 변수(explanatory variable)가 반응 변수(reponse variable)와 통계적으로 유의미한 상관성이 있는지 나타낸다. 지금에 예제에서 p-값(p-value)은 0.05보다 작다. 그러므로 '공부 시간', '기출문제 수'와 '시험 점수'간에는 유의미한 상관관계가 있다.

  • P-값(P-value): 각 원인 변수(explanatory variable)의 p-value는, 각 원인 변수(explanatory variable)가 통계적으로 타당한지 검정해준다. '공부 시간'에 대한 p-값(p-value)은 0.00001로 유의 수준 알파 값: 0.05보다 작으므로 유의미한 지표다. 그에 반해, '기출문제 수'에 대한 p-값(p-value)은 0.520.05보다 크기 때문에 통계적으로 유의미한 지표가 아니다. 그래서 '기출문제 수'를 원인 변수(explanatory variable)에서 제외하는 것이 타당하다.

  • 계수(Coefficients): 계수는 선형 모델링을 위한 방정식에 필요한 계수를 제공한다. 지금에 예제에서 선형 모델에 값은

시험 점수 = 67.67 + 5.5557*(공부시간)


시험 성적은 공부시간당 평균 5.5557점씩 증가한다. 그리고 선형 모델에서 '공부 시간'이 0시간으로 갈 때 받게 될 최저 시험 점수는 67.67점이다. 단, 여기서 '기출문제(x2)'는 고정되었다고 가정한다. 예를 들어 A, B 모두 동일한 숫자에 기출문제를 풀었고 그리고 A가 B보다 한 시간 더 공부했다면, A는 5.5557 높은 점수를 받을 것이다.

  • 다중 선형 회귀분석(Multiple Linear Regression)로 선형회귀 방정식: 두 개의 계수(coefficient)를 모두 이용해서 다중 회귀모형의 방정식을 만들 수 있다.

시험 점수 = 67.67 + 5.56*(공부시간) - 0.60*(기출문제 수)


그리고 회귀모형 방정식을 이용해서, 한 학생이 공부시간과 기출문제 수를 가지고 받을 시험 점수를 예측할 수 있다. 예를 들어, '공부 시간 = 3시간', '기출문제 수 = 1' 였다면 예상되는 시험 점수는 83.75다.

시험 점수 = 67.67 + 5.56*(3) – 0.60*(1) = 83.75


하지만 '기출문제 수(x2)'는 통계적으로 유의미한 변수가 아니었기 때문에 회귀모형 방정식에 추가된다고 해서 추정 값에 정확도가 증가하진 않는다. 이 경우, '공부 시간'을 단일 변수로 단순 선형 회귀분석(simple Linear Regreesion)을 할 수 있다.