Excel_데이터/시각화

엑셀에서 상관계수행렬(Correlation Matrix) 만들기

palefaceman 2021. 4. 6. 05:43

두 개의 변수(two variables) 사이에 관계를 파악하기 위해서 피어슨 상관계수(Pearson Correlation coefficient)를 구한다.

피어슨 상관계수(Pearson Correlation Coefficient)는 -1 ~ 1 사이 값을 가진다.

  • -1: 부의 상관관계(negative correlation)
  • 0: 상관관계 없음
  • +1: 정의 상관관계(positive correlation)

 

0에서 더 멀어질수록 두 변수는 정/부의 상관관계가 있다.

 

이번에 2개 이상의 변수에 대한 상관관계(Correlation)를 상관계수 행렬(correlation matrix)을 만들어서 한 눈에 시각화 해본다. 

엑셀에서 상관계수행렬(correlation matrix) 만들기

위의 데이터에 3개의 변수(Three variables)가 있다. 득점, 리바운드, 어시스트 3개의 변수에 대한 상관계수 행렬(correlation matrix)을 구해본다.

 

홈 > 데이터 > 데이터 분석으로 들어간다.

 

데이터 분석이 보이지 않으면 분석 도구 업로드하기에서 확인한다.

데이터 분석에서 상관분석(Correlation) 클릭한다.

'첫째 행 이름표 사용' 체크하고, 입력 범위를 선택하고, 출력 범위를 설정하고 확인한다.

상관계수 행렬(Correlation matrix) 해석하기

각각 칸(cell)들은 두 변수 간의 상관계수(pearson correlation coefficient)를 보여준다.

 

득점과 리바운드의 상관관계(correlation):

-0.04639이다. 부의 상관관계가 있지만, 0에 근접하므로 큰 상관성은 없다.

득점과 어시스트의 상관관계(correlation):

0.121871이다. 양의 상관관계가 있지만, 0에 근접하므로 큰 상관성은 있다고 보기 어렵다.

리바운드와 어시스트의 상관관계(correlation):

0.713713이다. 양의 상관관계가 있지만, 0에 근접하지 않으므로 어느 정도 상관성이 있다고 볼 수 있다. 리바운드를 많이 한 선수는 어느정도 어시스트도 많이 한다고 분석 가능하다.

 

대각선 값은 항상 +1이다. 같은 변수 간의 상관관계 파악은 의미가 없다.

추가사항: 시각화하기

상관계수 행렬(correlation matrix)에 시각적으로 변화시킬 수 있다. 보통 조건부 서식 > 색조 > 녹색-노랑-빨강 색조로 하면 간편하면서 효과적이다.

 

상관계수행렬(correlation matrix)에 변수가 많을 때, 색조로 표시하는 방법은 한눈에 대소 관계를 알아볼 수 있는 매우 유용한 방법이다.