Excel_데이터/시각화

엑셀에서 앤스콤 4분할 그래프(Anscombe's quartet) 그리기

palefaceman 2021. 4. 14. 18:19

앤스콤 4분할 그래프(Anscombe's quartet)는 평균(mean)과 표준편차(stanard deviation) 같은 기술적 통계량(descriptive statistics) 같은 4 개의 데이터 셋의 분포 그래프를 모아서 봄으로써, 기술적 통계(descriptive statistics)에서 보지 못한 데이터 분포의 차이를 한눈에 보여준다.

 

차례로 앤스콤 4분할 그래프(Anscombe's quartet)를 그려본다.

1단계: 데이터 생성하기

4개의 서로 다른 데이터 세트를 입력한다. 이들의 평균(mean)과 표준편차(standard deviation)는 같다.

2단계: 데이터를 시각화한다.

분산형 그래프를 생성한다. 분산형 그래프를 생성한 데이터 범위 A3:B13를 선택한다. 

 

삽입> 차트 > 분산형(x, y) 또는 거품형 차트 > 분산형

 

아래와 같은 분산형 그래프가 생성된다.

나머지 3개의 데이터 셋에서도 똑같이 반복하여 총 4개의 그래프를 생성한다.

3단계: 기술적 통계 분석을 한다. 

평균(mean), 분산(variance), 상관계수(correlation coefficient)를 구해본다.

상관계수(correlation coefficient)를 제외한 기술적 통계량이 같음을 볼 수 있다. 

앤스콤 4분할 그래프(Anscombe's quartet)의 유용성

예시에서 본 4개의 데이터 세트에 평균과 분산만 계산했다면 4개의 데이터 세트가 서로 비슷한 데이터라고 생각하게 돼버릴 수 있다. 하지만 상관계수에서 유추할 수 있듯이, 그래프를 그려서 시각화해보면 완전 다른 분포를 보이는 전혀 다른 데이터들임을 알게 된다. 앤스콤 4분할 그래프(Anscombe's quartet)는 특히 4개의 시각화 그래프를 한 곳에 모아둠으로써 이러한 차이를 한눈에 볼 수 있도록 만들어졌다.

 

기술적 통계량(descriptive statistics)은 많은 데이터 값들을 숫자로 정리/요약할 수 있다. 그리고 시각화(visualization)는 데이터의 분포를 직관적으로 한눈에 보는데 유용하다. 그렇기 때문에 데이터를 분석하기에 앞서, 데이터 분포를 그래프로 시각화해보고 분석 결론을 내야 한다.