통계에서 선형 회귀분석(simple linear regression)은 변수 x와 y 사이에 관계를 계량화 하는 데 사용한다.
선형 회귀분석(simple linear regression)에서 "최적의 선형 방정식"을 구하게 된다.
ŷ = b0 + b1*x
- ŷ: (선형회귀분석 모델에서) 예측되는 반응 변수(response variable)
- b0: y-절편
- b1: 회귀분석 계수
- x: 예측 변수(predictor variable) 값
때때로, 선형회귀분석(simple linear regression)을 통해 얻어진 선형 방정식을 통해 95%의 확률로 실제 모집단에 y값을 추종하는 예측값 'ŷ'의 범위를 구할 수도 있다.
'x'에 예측 구간(Prediction Interval)을 구하는 공식은 아래와 같다.
ŷ0 +/- t [α/2, df=n-2]* s.e.
- s.e. = Syx√(1 + 1/n + (x0 – x)²/SSx)
공식이 다소 복잡해 보일 수 있지만, 엑셀에서는 쉽게 구할 수 있다. 아래 예시를 보면서 어떻게 예측 구간(Prediction Interval)이 계산되어지는지 따라가 보자
예시: 엑셀에서 예측 구간(Prediction Interval) 구하기
아래에 입력된 데이터는 15명에 학생에 대한 '공부 시간' vs '시험 점수'에 대한 통계량이다.
여기서 'x0 =3'에 대한 95% 예측 구간(Prediction Interval)을 만들어본다. 다시 말해, 3시간 공부한 학생에 대해서 95%의 확률로 몇 점을 받을 것인가에 대한 예측 가능한 구간을 구해본다.
아래 엑셀 칸에 입력된 데이터들이 어떻게 예측 구간(Prediction Interval)을 구하는지 과정을 보여준다.
x값 3에 대한 95% 예측 구간(Prediction Interval)은 [74.64, 86.90]이다. 공부를 3시간 한 학생이 95%의 확률로 얻을 수 있는 시험 점수에 대한 예측 구간(Prediction Interval)이다.
※ 계산에서 쓰인 함수에 대한 몇 가지 부가 설명
- 95%의 예측 구간에 대한 t값을 구하기 위해서 t [α/2, df=n-2], α/2 = 0.05/2 = 0.025을 사용했다.
99%의 예측 구간을 구할 시에는 더 넓은 범위를 구할 수 있다.
90%의 예측 구간을 구할 시에는 더 좁은 범위를 구할 수 있다.
- =FORECAST()는 'ŷ0'에 예측되어지는 값을 반환한다. 이는 =FORECAST.LINEAR()과 정확히 똑같은 값을 반환한다.
'Excel_데이터 > 회귀분석' 카테고리의 다른 글
엑셀에서 표준화 잔차(Standardized Residuals) 구하기 (0) | 2021.05.13 |
---|---|
엑셀에서 잔차도(Residual Plot) 그리기 (0) | 2021.05.12 |
엑셀에서 다항 회귀분석(Polynomial Regression) 하기 (0) | 2021.05.10 |
엑셀에서 지수함수 회귀분석(Power Regression) 하기 (2) | 2021.05.08 |
엑셀에서 로그 회귀분석(Logarithmic Regression) 하기 (0) | 2021.05.07 |