이상치(outlier)는 비정상적으로 데이터 분포에서 멀리 떨어져 있는 데이터 값이다.
이상치(outlier)는 여러 통계 수치를 계산하는데 영향을 끼쳐 값에 신뢰도를 떨어뜨리거나, 해석에 오류를 범하게 하는 문제를 일으킨다.
위의 데이터에 이상치를 알아보자
방법 1: IQR(Interquartile Range)로 구하기
IQR은 Q3-Q1으로 데이터에서 50%에 값을 지시한다.
만약 Q3에서 IQR의 1.5배 한 값보다 크거나, Q1에서 IQR에 1.5배 아래에 이상치(outlier)로 간주한다.
계산해보면 아래와 같다.
164가 이상치(outlier)로 잡혔다.
방법 2: z-스코어 사용하기
z = (X – μ) / σ
- X : 데이터 값
- μ : 모평균
- σ : 모 표준편차
만약 z 값이 -3보다 작고, 3보다 크면 이상치(outlier)로 간주한다.
이렇게 z-스코어를 구해놓고, 이상치(outlier)를 찾아보면
이 방법에서 이상치(outlier)는 없다.
Note:
z-스코어 이상치 분석에서 3 대신에 2.5로 범위를 잡는 경우도 있다. 그때는 164는 이상치로 잡히게 된다. 이상치로 의심스러운 데이터 값에 대해 적절한 z-스코어를 설정해야 한다.
어떻게 이상치(Outlier) 다루나
1. 이상치(Outlier)가 데이터 값에 들어가지 않게 가공한다.
이상치(Outlier)를 미처 제거하지 못하고 통계분석을 했다면, 통계수치가 이상하게 나온다. 다시 돌아가서 이상치(outlier)를 살펴본다.
2. 제거한다.
이상치(outlier) 검정에서 이상치(outlier)로 판정됐다면, 마땅히 그 값은 제외하고 분석한다. 그리고 분석을 마친 데이터 보고서는 추가로 제거한 데이터 값에서 언급해준다.
3. 새로운 통계수치를 적용한다.
만약, 이상치(outlier)가 진짜 결과의 데이터이고, 제거할 수 없는 경우, 이상치(outlier)에 영향을 받지 않는 중앙값(median)이나 조금 덜 받는 평균(mean) 값을 사용한다.
'Excel_데이터 > 기술적 통계' 카테고리의 다른 글
엑셀에서 상대표준편차(Relative Standard Deviation) 계산하기 (0) | 2021.03.20 |
---|---|
엑셀에서 카파상관분석(Fleiss's Kappa) 구하기 (0) | 2021.03.19 |
엑셀에서 점이연 상관관계(Point-biserial correlation) 분석 (0) | 2021.03.18 |
엑셀에서 편상관관계(Partial Correlation) 구하기 (0) | 2021.03.17 |
엑셀에서 누적도수(cumulative frequency)구하기 (0) | 2021.03.16 |