Excel_데이터/가설검증

엑셀에서 2표본 t-검정(Two Sample t-Test)하기

palefaceman 2021. 4. 9. 21:32

2 표본 t-검정(two sample t-Test)은 두 모집단의 평균값이 동일한지 판별하는 검정이다.

 

2 표본 t-검정(two sample t-Test)을 해본다.

엑셀에서 2 표본 t-검정(two sample t-Test) 실행하기

한 식물학자는 같은 열대 밀림에 서식하는 두 식물 종의 평균 높이가 같은지 아닌지 알고 싶다. 모든 종을 채취해서 높이를 측정하고 평균을 내는 일은 비효율적이었다. 그래서 20개의 표본을 채취하고 높이를 기록했다.

두 개의 서로 다른 모집단(popluation)에서 채취한 같은 크기(size)의 두 표본(sample)으로 두 종의 모집단(population)이 의 평균 높이가 같은지 t-검정(t-Test)으로 판별할 수 있다. 

 

1단계: 두 표본의 분산(variance)가 같은지 알아본다.

2 표본 t-검정(two sample t-Test)을 하기 위해서, 선행작업으로 두 모집단(population)의 분산(variance)이 같은지 다른지 판별한다. 간략한 판별법으로 두 표본에 분산 값 중 큰 분산의 값이 작은 분산의 값에 4배가 되지 않으면 모집단(population)의 분산(variance)이 같다고 간주한다.

분산(variance)의 크기비율이 12.9/8.134 = 1.586 이므로 4보다 작다. 두 모집단(population)의 분산(variance)은 통계적으로 같다고 본다.

2단계: 2표본 t-검정(two sample t-Test)을 한다.

데이터 분석 툴에 들어가서 2표본 t-검정(two-sample t-Test)을 한다.

 

데이터 분석에 들어간다.

혹시 없다면, 데이터 분석 툴 업로드 하기 받아온다.

3단계: 데이터 분석 툴에서 분석한다.

t-Test 등분산 가정 두 집단을 선택하고 변수 1에 A2:A17, 변수 2에 B2:B17을 입력한다.

  • 평균(Mean): 식물 1 표본의 평균 15.15, 식물 2 표본의 평균 15.8
  • 분산(Variance): 식물 1 표본의 분산 8.134211, 식물 2 표본의 분산 12.90526
  • 관측수(Observation): 표본의 수이다. 20
  • 공동(Pooled) 분산: s²p= [ (n1-1) s^²₁+ (n2-1) s²₂ ] / (n1+n2-2)를 해서 구해진 변수 1, 변수 2의 공동(pooled)으로 구한 분산 값이다. 후에 t 통계량을 구할 때 쓰인다.
  • 가설 평균 차(Hypothesized mean difference): 두 표본의 평균의 차이를 가정한 값이다. 여기서 '0' 값이다. 앞선 가정 선정에서 두 식물의 높이가 같은지 아닌지 알고 검정하기 때문이다.
  • 자유도(dgrees of freedom): 20+20-2 = 38
  • t 통계량(t statistics):   = [ x1  x2 ] / √ [ s^2p(1/n1 + 1/n2) ]에 의해 구해진다. 여기서는, t = [15.15-15.8] / √ [ 10.51974(1/20+1/20) ] = -0.63374.
  • P(T <=t) 양측 검정: 여기서 양측 검정(two-tailed t-Test)에 p-값(p-value)은 0.530047이다. 유의 수준에서 알파 값 0.05보다 크다. 그래서 가설을 기각할 수 없다. 두 식물종의 평균 높이가 다르다는 어떠한 통계적 근거를 제시하지 못한다. 
  • t 기각치 양측 검정(t Critical Two-tail): 알파값 0.05, 자유도 38에서 t-기각치(t Critical value) 표에서 찾을 수 있는 값이다. 이 값은 2.024394. 통계 검정에서 구해진 t-통계량(t-statistic)은 -0.63374로 t-기각치 보다 작다. 이는 또한 가설을 기각할 수 없다. 그러므로, 두 식물종의 평균 높이가 다르다는 어떠한 통계적 근거를 제시하지 못한다. 

 

p-value와 기각치(critical value)의 통계 검정법에서 동일한 결과를 내고 있다.