통계에서 상관분석(correlation Analysis)이란 두 변수 간에 크기와 방향에 관계를 말해주는 지표로 쓰인다.
상관계수(correlation coefficient)는 -1 ~ 1 사이에 범위다.
- -1: 두 계수가 반대 관계에 있다.
- 0: 두 계수에 관계는 없다.
- 1: 두 계수에 비례 관계에 있다.
대표적인 예시로 스피어맨 랭킹 상관분석(Spearman Rank Correlation)이 있다.(수학, 과학 성적의 상관관계를 살펴본다.)
예시: 스피어맨 랭킹 상관분석(Spearman Rank Correlatin) in Excel
1단계: 데이터 입력
2단계: 순위를 계산한다.
각각의 학생에 수학/과학 성적에 대해 순위를 매긴다.
Cell D2: =RANK.AVG(B2, $B$2:$B$11, 0)
Cell E2: =RANK.AVG(C2, $C$2:$C$11, 0)
을 하고 쭉 드래그하여 남은 cell을 채운다.
3단계: 순위 상관계수(Rank Correlation Coefficient)를 구한다.
CORREL() 함수를 이용하여 상관계수를 구한다.
4단계(선택 사항): 순위 상관계수(Rank Correlation Coefficient)의 통계적 타당성에 대해 분석해본다.
수학과 과학에 순위 상관계수(Rank Correlation Coefficient)는 -0.41818로 구해졌다. - 값은 음에 상관관계를 의미한다.
하지만, 이 숫자만으로 절대적인 의미를 도출하지는 않는다. 순위 상관계수 표(Rank Correlation table)에서 표본 크기(n)와, 유의 확률 (α) 표의 임계값(critical value)과 비교하여 그 타당성을 점검해야 한다.
우리의 예시에서 표본 크기(n) = 10, 유희 확률(α) = 0.05로 해서 보자.
여기서 임계값(critical value)은 0.564다.
순위 상관계수(Rank Correlation coefficient)의 절댓값은 0.41818로 이는 임계값(critical value) 0.564보다 크지 않는다.
이는, 수학과 과학 점수 간에 상관관계가 신뢰구간 95%(100개중 95개가 표본의 유효한 상관계수 범위에 포함된다.)에서 통계적으로 유의미하지 않음을 의미한다.
'Excel_데이터 > 기술적 통계' 카테고리의 다른 글
엑셀에서 계급폭(class width)구하기 (0) | 2021.03.16 |
---|---|
엑셀에서 데이터 정규화(Date Normalization)하기 (1) | 2021.03.15 |
엑셀에서 베이즈 정리(bayes' Theorem) (0) | 2021.03.14 |
엑셀에서 조건부 확률(Conditional Probability)구하기 (0) | 2021.03.13 |
엑셀에서 벡터의 내적(Dot Product)구하기 (0) | 2021.03.13 |