앤스콤 4분할 그래프(Anscombe's quartet)는 평균(mean)과 표준편차(stanard deviation) 같은 기술적 통계량(descriptive statistics) 같은 4 개의 데이터 셋의 분포 그래프를 모아서 봄으로써, 기술적 통계(descriptive statistics)에서 보지 못한 데이터 분포의 차이를 한눈에 보여준다.
차례로 앤스콤 4분할 그래프(Anscombe's quartet)를 그려본다.
1단계: 데이터 생성하기
4개의 서로 다른 데이터 세트를 입력한다. 이들의 평균(mean)과 표준편차(standard deviation)는 같다.
2단계: 데이터를 시각화한다.
분산형 그래프를 생성한다. 분산형 그래프를 생성한 데이터 범위 A3:B13를 선택한다.
삽입> 차트 > 분산형(x, y) 또는 거품형 차트 > 분산형
아래와 같은 분산형 그래프가 생성된다.
나머지 3개의 데이터 셋에서도 똑같이 반복하여 총 4개의 그래프를 생성한다.
3단계: 기술적 통계 분석을 한다.
평균(mean), 분산(variance), 상관계수(correlation coefficient)를 구해본다.
상관계수(correlation coefficient)를 제외한 기술적 통계량이 같음을 볼 수 있다.
앤스콤 4분할 그래프(Anscombe's quartet)의 유용성
예시에서 본 4개의 데이터 세트에 평균과 분산만 계산했다면 4개의 데이터 세트가 서로 비슷한 데이터라고 생각하게 돼버릴 수 있다. 하지만 상관계수에서 유추할 수 있듯이, 그래프를 그려서 시각화해보면 완전 다른 분포를 보이는 전혀 다른 데이터들임을 알게 된다. 앤스콤 4분할 그래프(Anscombe's quartet)는 특히 4개의 시각화 그래프를 한 곳에 모아둠으로써 이러한 차이를 한눈에 볼 수 있도록 만들어졌다.
기술적 통계량(descriptive statistics)은 많은 데이터 값들을 숫자로 정리/요약할 수 있다. 그리고 시각화(visualization)는 데이터의 분포를 직관적으로 한눈에 보는데 유용하다. 그렇기 때문에 데이터를 분석하기에 앞서, 데이터 분포를 그래프로 시각화해보고 분석 결론을 내야 한다.
'Excel_데이터 > 시각화' 카테고리의 다른 글
엑셀에서 블랜드-앨트먼 차트(Bland-Altman Plot) 그리기 (1) | 2021.04.14 |
---|---|
엑셀에서 정규확률그림(Normal Probability Plot) 그리기 (1) | 2021.04.13 |
엑셀에서 분산형 그래프(Scatterplot)에 구분선 추가하기 (0) | 2021.04.13 |
엑셀에서 곡선 데이터 피팅(Curve Fitting)하기 (4) | 2021.04.12 |
엑셀에서 파이차트(Pie Chart) 그리기 (0) | 2021.04.12 |