Excel_데이터/확률분포

엑셀에서 z-점수 p-value 구하기

palefaceman 2021. 3. 29. 17:50

많은 통계 가설 검정(hypothesis tests)에서 z-테스트를 사용한다. 그리고 z-테스트에서 구해진 p-value와 선택된 신뢰구간(confidentl interval)에 따른 알파 값(0.01, 0.05, 0.10)과 비교하여 가설의 기각 여부를 알 수 있다.

 

엑셀에서 z-점수를 통해 신뢰구간 95%에서 p-value를 구해본다.

 

NORM.DIST(x, mean, standard_dev, cumulative)

  • x : 구하고자 하는 z-점수
  • mean: 분포 평균, 정규분포(normal distribution)로 '0'으로 표시
  • standard_dev: 분포 표준편차, 정규분포(normal distribution)으로 '1'로 표시
  • cumulative: “TRUE”는 연속분포함수 변환 or “FALSE”는 확률분포 함수 반환, "TRUE"사용

예시 1: z-점수에서 p-value 찾기(two-tailed)

새로 생산된 배터리가 기존의 배터리와 수명이 같은지 다른지 알고 싶다. 기존의 배터리는 18시간,

새로 생상된 배터리에서 임의의 샘플 100개를 취해 평균과 표준 편차를 구했다. 19시간, 4시간

 

two-tailed 가설 검정을 해본다. 95% 신뢰구간 알파 값은 0.05다. 

1단계: 가설 세우기

The null hypothesis (H0): μ = 18

The alternative hypothesis: (Ha): μ ≠ 18

2단계: z-검정

 z  =  (x-μ) / (s/√n)  = (19-18) / (4/√100)  = 2.5

3단계: z-점수로 p-value 찾기

 =1 – NORM.DIST(2.5, 0, 1, TRUE)

1-NORM.DIST(z, mean, stdev)는 한쪽 꼬리의 값을 반환하므로, x2를 해주어 두쪽 고리 p-value을 구할 수 있다.

이 값은 0.012419

4단계: 가설의 기각 여부 결정하기

  • p-value: 0.012419
  • 알파 값: 0.05

p-value는 알파값보다 작다. 고로 95% 신뢰구간에서 기각한다. 그래서 Ho(null hypothesis)는 기각되고 Ha(althernative hypothesis)를 선정하여, 95% 신뢰구간에서 새로운 배터리 수명은 기존의 배터리 수명과 다르다고 볼 통계적 근거가 있다.

예시 2: z-점수에서 p-value 찾기(one-tailed test)

식물학자들은 새로 발견한 식물종의 높이가 14cm 보다 작다고 생각한다. 식물학자들은 30개의 표본을 임의로 채취하여 평균과 표준편차를 구랬다. 13.5 cm, 2 cm

 

이번에는 신뢰구간 99%, 알파값(0.01)에서 가설 검정(hypothesis test)을 해보겠다. 

1단계: 가설 세우기

The null hypothesis (H0): μ≥ 14

The alternative hypothesis: (Ha): μ < 14

2단계: z-검정

 z  =  (x-μ) / (s/√n)  = (13.5-14) / (2/√30)  = -1.369

3단계: z-점수로 p-value 찾기

=NORM.DIST(-1.369,0,1,TRUE)

NORM.DIST(z, mean, stdev)는 한쪽 꼬리의 값을 반환하므로 그대로 구해보면 p-value는 0.0855다.

4단계: 가설의 기각 여부 결정하기

  • p-value: 0.0855
  • 알파 값: 0.01

p-value 0.0855는 알파 값 0.01보다 크므로 신뢰구간 99%에서 기각할 수 없다. 고로 H0(nyll hypothesis)에서 설정한 가정, '이 식물에 높이가 평균 14cm보다 크다'에서 식물의 높이가 14cm보다 작다고 할 통계적 근거를 제시할 수 없다.