Excel_데이터/회귀분석

엑셀에서 잔차도(Residual Plot) 그리기

palefaceman 2021. 5. 12. 21:53

잔차도(Residual Plot)는 회귀분석 모델에 의해서 구해진 값과, 원래 데이터로 피팅되어 있는 값 사이에 차이값을 그림으로 나타낸다. 이와 같은 그림 분석은 회귀분석 모델이 적합한지 아닌지 판단하기에 좋다. 

 

잔차도(Residual Plot)를 이용하면 heteroscedasticity도 점검해볼 수 있다. heteroscedasticity는 잔차(residual)이나 에러(error)가 불균일하게 변하는 것을 뜻한다. 이렇게 되면 회귀분석에서 구한 방정식의 계수(coefficient)의 분산이 커져서 회귀분석 모델에 신뢰도가 떨어지게 된다. 

 

이번 포스팅에서 엑셀에서 잔차도(Residual Plot)를 그려본다. 

엑셀에서 잔차도(Residual Plot) 그리기

단계별로 차례차례 잔차도(Residual Plot)를 그린다.

1단계: 데이터를 입력한다.

예측 변수(predictor variable)을 A2:A13에, 반응 변수(response variable)를 B2:B13에 그린다.

2단계: 분산그래프를 생성한다.

x, y 데이터 범위를 선택하고 삽입 > 차트 > 분산형(X,Y)또는 거품형 차트 삽입에서 분산형을 선택한다.

아래와 같은 차트가 그려진다.

3단계: 차트에서 '추세선'을 추가한다.

차트에서 점을 선택하고 오른쪽 마우스에서 추세선 추가를 선택한다.

추세선 서식에서 수식을 차트에 표시(E)를 선택한다.

차트에 추세선과 방정식이 추가되어 나온다.

4단계: 예측되는 'y' '값을 구한다.

C2칸에 추세선에서 구해진 방정식을 입력하고 'x' 대신에 각행 별로 A열에 값을 입력한다.

5단계: 잔차(residual)를 구한다.

y-y' 을 D열에 입력한다.

6단계: 잔차도(residual pot)를 그린다.

x와 y-y', A열과 D열을 선택하고 삽입 > 차트 > 분산형(X, Y)또는 거품형 차트 삽입에서분산형을 선택한다.

잔차(residual)의 분포가 그려진다. x-축은 'x'값, y-축은 'y-y' '의 잔차값이 분포된다.

 

보기 좋게 수정한다.

※ x값이 커져나감에 따라, 잔차의 절댓값이 커지는 경향이 보인다면 heteroscedasticity를 의심해볼 수 있다. 하지만 아래에 데이터 잔차도에서는 x 값이 무관하게 잔차가 분포돼있다.