두 개의 변수(two variables) 사이에 관계를 파악하기 위해서 피어슨 상관계수(Pearson Correlation coefficient)를 구한다.
피어슨 상관계수(Pearson Correlation Coefficient)는 -1 ~ 1 사이 값을 가진다.
- -1: 부의 상관관계(negative correlation)
- 0: 상관관계 없음
- +1: 정의 상관관계(positive correlation)
0에서 더 멀어질수록 두 변수는 정/부의 상관관계가 있다.
이번에 2개 이상의 변수에 대한 상관관계(Correlation)를 상관계수 행렬(correlation matrix)을 만들어서 한 눈에 시각화 해본다.
엑셀에서 상관계수행렬(correlation matrix) 만들기
위의 데이터에 3개의 변수(Three variables)가 있다. 득점, 리바운드, 어시스트 3개의 변수에 대한 상관계수 행렬(correlation matrix)을 구해본다.
홈 > 데이터 > 데이터 분석으로 들어간다.
데이터 분석이 보이지 않으면 분석 도구 업로드하기에서 확인한다.
데이터 분석에서 상관분석(Correlation) 클릭한다.
'첫째 행 이름표 사용' 체크하고, 입력 범위를 선택하고, 출력 범위를 설정하고 확인한다.
상관계수 행렬(Correlation matrix) 해석하기
각각 칸(cell)들은 두 변수 간의 상관계수(pearson correlation coefficient)를 보여준다.
득점과 리바운드의 상관관계(correlation):
-0.04639이다. 부의 상관관계가 있지만, 0에 근접하므로 큰 상관성은 없다.
득점과 어시스트의 상관관계(correlation):
0.121871이다. 양의 상관관계가 있지만, 0에 근접하므로 큰 상관성은 있다고 보기 어렵다.
리바운드와 어시스트의 상관관계(correlation):
0.713713이다. 양의 상관관계가 있지만, 0에 근접하지 않으므로 어느 정도 상관성이 있다고 볼 수 있다. 리바운드를 많이 한 선수는 어느정도 어시스트도 많이 한다고 분석 가능하다.
대각선 값은 항상 +1이다. 같은 변수 간의 상관관계 파악은 의미가 없다.
추가사항: 시각화하기
상관계수 행렬(correlation matrix)에 시각적으로 변화시킬 수 있다. 보통 조건부 서식 > 색조 > 녹색-노랑-빨강 색조로 하면 간편하면서 효과적이다.
상관계수행렬(correlation matrix)에 변수가 많을 때, 색조로 표시하는 방법은 한눈에 대소 관계를 알아볼 수 있는 매우 유용한 방법이다.
'Excel_데이터 > 시각화' 카테고리의 다른 글
엑셀에서 도수분포 다각형(Frequency Polygon) 그리기 (0) | 2021.04.07 |
---|---|
엑셀에서 종 곡선(Bell Curve) 그리기 (2) | 2021.04.06 |
엑셀에서 누적도수분포 곡선(Ogive graph) 그리기 (0) | 2021.04.05 |
엑셀에서 도넛 차트(Doughnut Chart) 그리기 (0) | 2021.04.05 |
엑셀에서 상자그림(box plot)그리기 (0) | 2021.04.04 |