Excel_데이터/기술적 통계

엑셀에서 데이터 윈저화(Data Winsorization)하기

palefaceman 2021. 3. 22. 17:30

윈저화(winsorization)은 이상치(outlier)를 처리하는 기법으로 이상치를 특정 백분위수(percentile)에 값으로 치환해버린다.

 

예를 들어 90% 윈저화(winsorization)을 하게 되면 95 번째 값보다 큰 데이터는 모두 95 번째 데이터로 치환한다.

또는 5 번째 데이터 값보다 낮은 데이터는 모두 5 번째 데이터로 치환한다.

 

어떻게 하는지 예시를 보자

1단계: 데이터 셋팅

2단계: 5%,95% 백분위수 구하기

PERCENTILE(array, k) 함수를 이용해서 5 째, 95 쨰 백분위수를 구해준다.

5% 백분위수 12.35

95% 백분위수 92.05

3단계: 윈저화(Winsorization) 한다.

IF(Condition, True, False) 함수로 크거나 작거나, 조건을 걸어서 윈저화(winsorization)한다.

 

데이터 3 -> 12.35

데이터 98 -> 92.05로  윈저화(winsorization) 시켰다.

 

예시에서는 90% 윈저화(winsorization)하였다. 하지만 80%, 95%, 99% 윈저화(winsorization)도  백분위수(percentile) 범위를 수정하여 가능하다.