Excel_데이터/회귀분석

엑셀에서 선형회귀분석(Simple Linear Regression) 하기

palefaceman 2021. 5. 1. 20:26

선형 회귀분석(simple linear regression)은 원인 변수(Explanatory variable)와 반응 변수(response variable) 사이에 관계를 파악하는 데 사용하는 분석이다.

 

이번 포스팅에서 엑셀에서 선형회귀분석(simple linear regression)을 시행해본다. 

 

예시: 엑셀에서 선형회귀분석(linear regression)하기

학생들의 공부시간과 시험점수에 상관관계를 파악하고 싶다. 그래서 공부시간을 원인 변수(explanatory variable)로 시험성적을 반응 변수(response variable)로 해서 선형 회귀분석(simple linear regression) 시행한다.

 

엑셀에서 아래단계별로 따라가면서 선형 회귀분석(simple linear regression)을 한다.

1단계: 데이터 입력

공부시간과, 시험점수 데이터를 엑셀에 입력한다. 

2단계: 데이터를 시각화한다.

선형 회귀분석(simple linear regression)을 하기에 앞서, 분산 그래프(scatterplot)를 그려보면 구하고자 하는 두 변수간 관계를 시각적으로 대략 가늠해볼 수 있다. 

 

두 데이터를 선택하고, 삽입 > 차트 > 분산형(X, Y)또는 거품형 차트 삽입에서 분산형 클릭한다. 자동으로 아래와 같은 그래프가 나온다.

공부시간은 x축, 시험점수는 y축에 나온다. 그리고 두 변수 간에 대략적 선형 관계를 눈으로 확인할 수 있다. 공부 시간 x축이 늘어 남에 따라 시험 점수 y축도 올라가고 있다. 

 

두 변수간에 선형 관계성에 대해 선형 회귀분석(simple linear regression)을 하여 관계를 계량적으로 분석한다.

3단계: 선형회귀분석(simple linear regression) 하기  

데이터 > 데이터분석에 들어간다. 데이터 분석 툴이 없다면 업로드한다.

데이터 분석 툴 업로드하기

 

데이터 분석 창에서 회귀분석을 선택한다. 

  1. y축 범위에는 반응 변수(reponsive variable)를 넣는다.
  2. x축 범위에 원인 변수(explanatory variable)를 넣는다.
  3. Labels 카네 체크 표시한다. 선택범위에 제목으로 첫 번째 칸은 데이터에서 제외된다.
  4. 출력 범위에 임의의 셀을 지정하고 확인을 한다.

 

 

아래와 같은 선형 회귀분석(simple linear regression) 결과를 출력받을 수 있다.

4단계: 결과 해석하기

이제 주요 결과물들을 하나하나 해석해본다.

 

  • 결정계수(R²): 0.7273, R²라고 쓰고, 결정계수(coefficient of determination)이다. 이 값은 원인 변수(explanatory variable)로 설명 가능한 반응 변수(response variable)의 변동성을 가리킨다. 예를 들어 지금 예시에서, 72.73%의 '시험 성적(y)'에 변동성이 '공부 시간(x)'으로 설명 가능하다. 1로 갈수록 더 정확한 예측이 가능해진다.

 

  • 표준오차(standard error): 5.2805, 이 값은 관측값과 선형 모델 값과의 오차들에 평균이다. 예를 들어, 지금에 선형 모델에서 관측된 시험 점수와 생성된 선형 모델 값 사이에 오차는 평균적으로 5.2805점 떨어져 있다. 

 

  • F 비: 47.9952, 선형 모델의 F 통계량(F statistics)이다. 회귀제곱평균(MSR) / 잔차제곱평균(MSE), 35.308/0.73569 = 47.9952

 

  • Significance F: 0.00000178, F 통계량에 상응하는 p-값(p-value)다. 이 값은 선형 모델이 통계적으로 타당한지 나타낸다. 한 마디로, 원인 변수(explanatory variable)가 반응 변수(reponse variable)와 통계적으로 유의미한 상관성이 있는지 나타낸다. 지금에 예제에서 p-값(p-value)은 0.05보다 작다. 그러므로 '공부 시간'과 '시험 점수'간에는 유의미한 상관관계가 있다.

 

  • 계수(Coefficients): 계수는 선형 모델링을 위한 방정식에 필요한 계수를 제공한다. 지금에 예제에서 선형 모델에 값은

시험 점수 = 67.16 + 5.2503*(공부시간)

 

시험 성적은 공부시간당 평균 5.2503점씩 증가한다. 그리고 선형 모델에서 '공부 시간'이 0시간으로 갈 때 받게 될 최저 시험 점수는 67.16점이다. 

 

구해진 선형 모델을 가지고 임의의 공부시간 a에 대해서 예상되는 시험 점수 b를 구할 수 있다. 예를 들어 3 시간 공부를 한 학생의 기대되는 예상 점수는 82.91이다.