Excel_데이터/가설검증

엑셀에서 신뢰구간(Confidence Interval) 구하기

palefaceman 2021. 4. 25. 15:23

신뢰구간(Confidence Interval) 안에 값은 모수(population parameter)를 포함하고 있다.

 

신뢰구간(confidence interval)은 아래에 공식으로 계산한다.

 

신뢰구간(Confidence Interval) = (point estimate)  +/-  (critical value)*(표준 오차)

 

위의 공식은 신뢰구간(confidence interval)의 상한 값(uppter bound)과 하한 값(lower bound)을 구한다.

 

어떻게 신뢰구간(confidence interval)을 구하는지 단계별로 알아본다.

 

1. 평균의 신뢰구간(confidence interval)

2. 평균차이의 신뢰구간(confidence interval)

3. 비율의 신뢰구간(confidence interval)

4. 비율차이의 신뢰구간(confidence interval)

예시 1: 평균의 신뢰구간(confidence interval)

평균의 신뢰구간(confidence interval)은 모집단(population)의 평균(mean)을 포함하는 구간에 범위다. 

 

신뢰구간(confidence interval) = x  +/-  z*(s/√n)

  • x: 표본 평균
  • z: z-값
  • s: 표본 표준편차
  • n: 표본 크기

예를들어, 해양 생물학자는 관찰 중인 바다거북 무리 중에 무작위로 25마리를 뽑아 무게의 평균과 표준편차를 구했다. 

 

  • 표본크기: n= 25
  • 표본 평균: x= 300
  • 표본 표준편차: s= 18.5

 

평균의 신뢰구간(confidence interval) 95%을 어떻게 구하는지 아래에 엑셀 시트에서 보여준다. 95%에 대응하는 z-값은 1.96이다. 신뢰구간에 따른 z-값은 표를 보고 구한다.

바다거북 무게 평균(mean)의 95% 신뢰구간(confidence interval)[292.75, 307.25]이다.

 

즉 표본의 평균이 292.75와 307.25 사이에 있으면 95%의 확률로 모집단(population)의 평균을 대표할 수 있다.

 

예시 2: 두 집단의 평균 차의 신뢰구간(confidence interval)

두 집단의 평균 차의 신뢰구간(confidence interval)은 두 모집단(population) 사이에 평균(mean)의 차이를  포함하는 구간의 범위다.

 

신뢰구간(confidence interval) =  (x1x2) +/- t*√((s/n1) + (s/n2))

  • x1, x2:
  • t: 신뢰 수준과 자유도(n1+n2-2)에 대한, t-기각치(t-critical) 
  • sp²: 합동 분산(pooled variance), ((n1-1) s1 ² + (n2-1) s2 ²) / (n1+n2-2)
  • n1, n2: 표본 1, 표본 2의 크기

 

예를 들어, 해양 생물학자는 관찰 중인 두 바다거북 무리 중에서 각각 무작위로 15마리를 뽑아 무게의 평균(mean)과 표준편차(standard deviation)를 구했다. 

표본 1

  • 표본크기: n= 15
  • 표본 평균: x= 310
  • 표본 표준편차: s= 18.5

표본 2

  • 표본크기: n= 15
  • 표본 평균: x= 300
  • 표본 표준편차: s= 16.4

 

 

두 집단의 평균 차에 대한 신뢰구간(confidence interval) 95%을 어떻게 구하는지 아래에 엑셀 시트에서 보여준다. 95%에 대응하는 z-값은 1.96이다. 신뢰구간에 따른 z-값은 표를 보고 구한다.

두 무리 간 평균(mean)의 차이 95% 신뢰구간(confidence interval) [-3.08, 23.08]이다.

 

즉 두 무리 간 평균이 차이가 -3.08와 23.08 사이에 있으면 95%의 확률로 모집단(population)의 평균의 차이를 대표할 수 있다.

 

신뢰구간(confidence interval)에서 '0'을 포함하고 있다. 이는 두 무리에 무게 평균의 차이가 없는 경우도 있다. 그렇기 때문에 이는, 95%에 신뢰구간에서 두 집단의 무게 평균이 다르다고 할 수 없다. 

 

예시 3: 비율의 신뢰구간(confidence interval)

비율의 신뢰구간(confidence interval)은 모집단(population) 비율(proportion)을  포함하는 구간의 범위다.

 

신뢰구간(confidence interval) =  p  +/-  z*(√p(1-p) / n)

  • p: 표본 비율
  • z: z-값
  • n: 표본 크기

 

예를 들어, 우리 동네에 거주하는 주민들 중 이번 법률에 동의하는 사람들에 비율을 알고 싶다. 길을 가던 주민들을 무작위로 100에게 질문을 하고 동의하는지 하지 않는지 비율을 구했다. 

 

  • 표본크기: n= 100
  • 동의 비율: p = 0.56

 

비율에 대한 신뢰구간(confidence interval) 95%을 어떻게 구하는지 아래에 엑셀 시트에서 보여준다. 95%에 대응하는 z-값은 1.96이다. 신뢰구간에 따른 z-값은 표를 보고 구한다.

실제 동의하는 비율에 95% 신뢰구간(confidence interval) [0.463, 0.657]이다.

 

즉 표본의 동의하는 주민의 비율이 0.463과 0.657 사이에 있으면 95%로 실제 동의하는 주민의 비율이다.

예시 4: 두 집단의 비례 차이의 신뢰구간(confidence interval)

두 집단의 비례 차이의 신뢰구간(confidence interval)은 두 모집단(population) 사이에 비율의 차이를 포함하는 구간의 범위다.

 

신뢰구간(Confidence interval) = (p1–p2)  +/-  z*√(p1(1-p1)/n1 + p2(1-p2)/n2)

  • p1, p2:표본 1, 표본 2의 비율
  • z: 신뢰 수준에 대한 z-기각치(t-critical) 
  • n1, n2: 표본 1, 표본 2의 크기

 

예를 들어, 우리 동네에 거주하는 주민과 B동네 거주하는 주민들 간에 이번 법률에 동의하는 사람들에 비율 차이를 알고 싶다. 길을 가던 주민들을 무작위로 100에게 질문을 하고, B동도 100명 무작위로 물어서 비율을 구하고 그 차를 구했다.

 

표본 1

  • 표본크기 1: n1= 100
  • 비율 1: p1= 0.62

표본 2

  • 표본크기 2: n2= 100
  • 비율 2: p2=0.46

 

두 집단의 비율 창[ 대한 신뢰구간(confidence interval) 95%을 어떻게 구하는지 아래에 엑셀 시트에서 보여준다. 95%에 대응하는 z-값은 1.96이다. 신뢰구간에 따른 z-값은 표를 보고 구한다.

두 집단 간 비율 차이 95% 신뢰구간(confidence interval) [0.024, 0.296]이다.

 

즉 두 집단 간 비율 차이가 0.024와 0.296 사이에 있으면 95%의 확률로 새로운 법안에 동의하는 모집단(population)을 대표한다.