Excel_데이터/회귀분석

엑셀에서 예측 구간(Prediction Interval) 구하기

palefaceman 2021. 5. 11. 21:26

통계에서 선형 회귀분석(simple linear regression)은 변수 x와 y 사이에 관계를 계량화 하는 데 사용한다.

 

선형 회귀분석(simple linear regression)에서 "최적의 선형 방정식"을 구하게 된다.

 

ŷ = b0 + b1*x

 

  • ŷ: (선형회귀분석 모델에서) 예측되는 반응 변수(response variable)
  • b0: y-절편 
  • b1: 회귀분석 계수
  • x: 예측 변수(predictor variable) 값

 

때때로, 선형회귀분석(simple linear regression)을 통해 얻어진 선형 방정식을 통해 95%의 확률로 실제 모집단에 y값을 추종하는 예측값 'ŷ'의 범위를 구할 수도 있다. 

 

'x'에 예측 구간(Prediction Interval)을 구하는 공식은 아래와 같다.

 

ŷ0  +/-  t [α/2, df=n-2]* s.e.

 

  • s.e. = Syx√(1 + 1/n + (x0  x)²/SSx)

공식이 다소 복잡해 보일 수 있지만, 엑셀에서는 쉽게 구할 수 있다. 아래 예시를 보면서 어떻게 예측 구간(Prediction Interval)이 계산되어지는지 따라가 보자

 

예시: 엑셀에서 예측 구간(Prediction Interval) 구하기

아래에 입력된 데이터는 15명에 학생에 대한 '공부 시간' vs '시험 점수'에 대한 통계량이다.

 

여기서 'x0 =3'에 대한 95% 예측 구간(Prediction Interval)을 만들어본다. 다시 말해, 3시간 공부한 학생에 대해서 95%의 확률로 몇 점을 받을 것인가에 대한 예측 가능한 구간을 구해본다. 

 

아래 엑셀 칸에 입력된 데이터들이 어떻게 예측 구간(Prediction Interval)을 구하는지 과정을 보여준다. 

 

x값 3에 대한 95% 예측 구간(Prediction Interval)[74.64, 86.90]이다. 공부를 3시간 한 학생이 95%의 확률로 얻을 수 있는 시험 점수에 대한 예측 구간(Prediction Interval)이다.

 

※ 계산에서 쓰인 함수에 대한 몇 가지 부가 설명

  • 95%의 예측 구간에 대한 t값을 구하기 위해서 t [α/2, df=n-2], α/2 = 0.05/2 = 0.025을 사용했다. 
    99%의 예측 구간을 구할 시에는 더 넓은 범위를 구할 수 있다. 
    90%의 예측 구간을 구할 시에는 더 좁은 범위를 구할 수 있다.

 

  • =FORECAST()는 'ŷ0'에 예측되어지는 값을 반환한다. 이는 =FORECAST.LINEAR()과 정확히 똑같은 값을 반환한다.