Excel_데이터/회귀분석

엑셀에서 표준화 잔차(Standardized Residuals) 구하기

palefaceman 2021. 5. 13. 22:17

잔차(residual)는 관측값과 회귀모델에서 구해진 예측값 사이에 차이 값이다. 

 

잔차(residual) = 관측값(observed value) - 예측값(Predicted value)

 

'관측값''회귀분석 모델에서 피팅된 값'의 같은 x축에서 세로간격이 잔차(residual)이다.

 

표준화 잔차(Standardized Residuals)를 이용해서 잔차(residual)중에 이상치(outlier)가 있는지 판별할 수 있다.

 

 

ri  =  ei / s(ei)  =  ei / RSE√1-hii

  • ei: i번째 잔차(residual)
  • RSE: 회귀분석 모델에서 잔차의 표준편차(Residual Standard Error)
  • hii: 관측값에 레버리지

 

이번 예시에서는 표준화 잔차(Standardized Residuals)의 절댓값이 3이상 보다 크면 이상치(outlier)로 본다.

 

아래 단계별로 표준화 잔차(Standardized Residuals)를 구해본다.

1단계: 데이터 입력

데이터를 입력한다.

2단계: 잔차(residual)을 구한다.

데이터 분석에 들어가서 잔차(residual)를 구한다. 

만약 데이터 분석이 없다면 여기에서 업로드 한다.

 

데이터 분석을 클릭하고, 회귀분석을 선택한다. 아래와 같은 창이 뜨면 칸을 채워 넣는다.

각각 x값에 대한 잔차(residual)가 분석되어 나온다.

잔차 열을 복사해서 y값 옆 열(column) 붙여 넣기 한다.

3단계: 레버리지를 구한다.

레버리지(hii) = 1/n +(xi-u)^2/SS

  • 표본에 개수 n
  • 표본의 평균 u
  • 편차의 제곱합 SS

 

4단계: 표준화 잔차(Standardized Residuals)를 구한다.

마지막으로, 표준화 잔차(Standardized Residuals)를 구한다. 

 

ri  =  ei / s(ei)  =  ei / RSE√1-hii

 

RSE는 회귀분석 결과표에서 확인할 수 있다.

RSE는 4.44을 넣어서 구해본다.

구해본 결과 모든 x값에 대해서 표준화 잔차(Standardized Residuals)는 3을 넘지 않았다. 그러므로 모든 관측치는 이상치(outlier)가 아니다.

 

때때로 표준화 잔차(Standardized Residuals) 3 대신 2를 넘으면 이상치로 간주하기도 한다. 이는 데이터 분석의 이유와 목적에 따라 달라질 수 있다.