Excel_데이터/확률분포

엑셀에서 카이제곱통계량(Chi-Square Statistic) p-value 구하기

palefaceman 2021. 3. 27. 18:35

카이제곱 검정(Chi-Square Test)을 하게 되면 언제나 카이제곱 통계량(Chi-Square statistic)을 구하고 카이제곱 값을 기각할지 말지 p-value를 찾는다.

 

엑셀에서 카이제곱검정(Chi-Square Test)에 적합한 p-value를 찾기 위해 CHISQ.DIST.RT() 함수를 사용할 수 있다. 

 

=CHISQ.DIST.RT(x, deg_freedom)

  • x: 카이제곱 값
  • deg_freedom: 자유도

 

아래 예시에서 실행해 본다.

예시1: 카이제곱 적합도 검정(Chi-Square Goodness of fit Test)

한 PC방 주인이 매일 똑같은 수에 손님이 온다고 했다. 이 가정을 검정해보자. 일주일간 온 손님 수를 관찰했다.

50 60 40 47 53
  • H0(null hypothesis): 매일마다 같은 수에 고객이 온다.
  • H1(alternative hypothesis): 매일마다 같은 수에 고객이 안 온다.

 

X2 = Σ(O-E)^2 / E

  • Σ: 합
  • O: 관찰 값
  • E: 예상치

 

여기서 5일 동안 같은 사람이 오려면 예상치(E)는 50 하여 카이제곱 값을 구한다.

카이제곱 값(Chi-Square test statistics, X^2) = 4.36

자유도(degrees of freedom, df)= 4

 

카이제곱 통계량(Chi-Square statistic)에 맞는 p-value를 구한다.

=CHISQ.DIST.RT(4.36, 4)

p-value는 0.35947이다. 여기서 p-value는 신뢰구간 95%에서 유의수준(signifcance level) 0.05보다 크므로 기각하지 못한다. PC방 주인의 말이 틀렸다고 할만한 통계적인 근거고, PC방에 매일 똑같은 수의 고객들이 오지 않는다고 말할 수 없다.

예시 2: 독립 카이제곱 검정(Chi-Square Test of independence)하기

또한 두 변수 간의 독립/의존성을 판별하는데 카이제곱 검정(Chi-Square Test)을 사용한다.

 

정치성향과 성별의 상관관계를 알아보고자 한다.

  진보 보수 중도 종합
120 90 40 250
110 95 45 250
종합 230 185 85 500
  • H0: (null hypothesis)  성별과 정치성향은 관계가 없다.
  • H1: (alternative hypothesis) 성별과 정치 성향은 관계가 있다.

예상치(E1) = (230 * 250)/500

예상치(E2) = (230 * 250)/500

...

으로 다 계산하고 X^2 값을 구하면 0.864035

자유도: (3-1)*(2-1) = 2

p-value = 0.649198은 95% 신뢰구간에서 유의수준(signicance level) 0.05보다 크므로 귀무가설(null hypothesis)를 기각할 수 없다. 고로, 성별과 정치성향 두 변수간 연관성은 희박하다.