기술적통계 32

엑셀에서 상대표준편차(Relative Standard Deviation) 계산하기

상대표준편차(Relatie Standard Deviation)는 표본 집단(Sample)의 평균(mean)에 대비해서 표본의 표준편차(Standard Deviation)을 측정한다. 상대표준편차(Relative standard deviation) = s / x * 100% s: 표본 표준편차 x: 표본 평균 상대표준편차(Relative standard deviation)로 데이터값들이 평균(mean)에 얼마만큼 밀집되어 있는지 볼 수 있다. 예를들어 표준편차 4, 평균 400이면, 상대표준편차(relative standard deviation)은 4/400*100% = 1%다. 이 수치가 작으면 작을 수록 더 평균에 값들이 밀집해있다. 만약, 표준편차 40, 평균 400이면, 상대표준편차(relative..

엑셀에서 체비셰프 가정(Chebyshev's Theorem) 적용하기

체비셰프 가정(Chebyshev's Theorem)은 1보다 큰 어떤 수 k에서 1-1/k^2는 어떠한 분포에 데이터에서도 표준편차 k안에 들어간다고 정의한다. 예를 들어 1-1/3^2=88.89%의 값은 어떤 데이터의 분포에서도 표준편차x3에 들어간다. 예시1: 30에서 70 사이에 데이터에서 (30- mean) / stdev = (30 -50)/10 = -2 (70-mean) / stdev = (70-50)/10 = 2 여기서 30과 70은 평균이 50, 표준편차가 10인 데이터에서 k=2이다. 표준편차x2 안에 들어가는 데이터들은 75%이다. 30과 70사이에 들어가는 데이터는 75%이다. 예시 2: 20에서 50 사이에 데이터에서 (20- mean) / stdev = (20 -35)/5 = -3 ..

엑셀에서 카파상관분석(Fleiss's Kappa) 구하기

카파 상관분석(Fleiss's Kappa)은 3명 이상의 평가자 간에 신뢰도를 구하는 계수를 구하는 법이다. 카파상관계수(Fleiss's Kappa coefficient)는 0~1에 있다. 0: 평가자의 평가 신뢰도의 상관관계가 없다. 1: 평가자의 평가 신뢰도가 100%다. 어떻게 구하나? 아래에 그림에서 어떻게 Kappa를 구하는지 보여준다. 열 축 합(sum): 액셀에 합을 구한다. square sum: (C3^2-C3)+(D3^2-D3)+(E3^2-E3)+(F3^2-F3)+(G3^2-G3) square sum/(14*13): (C3^2-C3)+(D3^2-D3)+(E3^2-E3)+(F3^2-F3)+(G3^2-G3)/(14*13) sum: square sum/(14*13)의 합 sum/10: sum:..

엑셀에서 이상치(Outlier) 빨리 찾기

이상치(outlier)는 비정상적으로 데이터 분포에서 멀리 떨어져 있는 데이터 값이다. 이상치(outlier)는 여러 통계 수치를 계산하는데 영향을 끼쳐 값에 신뢰도를 떨어뜨리거나, 해석에 오류를 범하게 하는 문제를 일으킨다. 위의 데이터에 이상치를 알아보자 방법 1: IQR(Interquartile Range)로 구하기 IQR은 Q3-Q1으로 데이터에서 50%에 값을 지시한다. 만약 Q3에서 IQR의 1.5배 한 값보다 크거나, Q1에서 IQR에 1.5배 아래에 이상치(outlier)로 간주한다. 계산해보면 아래와 같다. 164가 이상치(outlier)로 잡혔다. 방법 2: z-스코어 사용하기 z = (X – μ) / σ X : 데이터 값 μ : 모평균 σ : 모 표준편차 만약 z 값이 -3보다 작고,..

엑셀에서 점이연 상관관계(Point-biserial correlation) 분석

점이연 상관관계(Point-biserial correlation)은 이분변수'x'와 연속변수'y'에 상관관계를 구하는데 사용된다. 피어스 상관계수(Pearson correlation coefficient)와 똑같이 -1~1에 값을 가진다. -1: 두 변수간 음의 상관관계가있다. 0: 두 변수간 상관관계가 없다. +1: 두변수간 양의 상관관계가 있다. 어떻게 만드는지 살펴보자 예시: 점이연 상관관계(Point-Biserial Correlation)을 구해보자 x는 이분변수 y는 연속변수 일단 =CORREL() 함수를 이용한다. 상관계수가 +값이다. 0.218163 이는 x 값이 1일 때 y 값이 0일 때 보다, 더 큰 값을 대체로 나타냄을 알 수 있다. 이를 확인하기 위해서 1일 때 y값과 0일 때 y값의..

엑셀에서 편상관관계(Partial Correlation) 구하기

두 변수 사이에 관계를 파악하기 위해 상관관계(pearson correlation coefficient)를 사용한다. 때때로 세 개의 변수 중에 하나를 제외하고 두 가지에서만 상관계수를 파악하고 싶을 때도 있다. 그때는 편상관관계(partial correlation)를 분석한다. 예를 들어 학생의 성적, 기말고사 성적, 공부 시간의 3개의 변수가 있다. 이중 학생의 성적을 제외하고 기말고사 성적과 공부와의 상관관계를 알아보고 싶다. 이러한 경우, 편상관관계(partial correlation)로 알아본다. 예시: 편상관관계(partial correlation) 구하기 1단계: 데이터를 입력한다. 2단계: 각각 상관분석을 한다. 3단계: 시간과 기말성적 사이에 편상관분석(partial correlation..

엑셀에서 누적도수(cumulative frequency)구하기

도수표(frequency table)는 빈도수에 대한 정보를 제공한다. 얼마나 많큼 그 사건이 일어났는지 말해준다. $1 – $10 20 $11 – $20 21 $21 – $30 13 $31 – $40 8 $41 – $50 4 위의 표는 도수표의 예시다. 도수표에서 누적도수(cumulative frequency)를 구하는 것 역시 가능하다. $1 – $10 20 20 $11 – $20 21 41 $21 – $30 13 54 $31 – $40 8 62 $41 – $50 4 66 두 번째 열이 도수(frequency)열이 계급 구간(class interval) 세 번째 열이 누적도수(cumulative frequency)다. 아래로 가면서 점차 누적해나간다. 20 20+21 = 41 20+21+13 = 54..

엑셀에서 상대도수(Relative Frequency) 구하기

도수표(frequnecy table)는 해당 사건이 얼마나 일어났는지 보여준다. $1 – $10 20 $11 – $20 21 $21 – $30 13 $31 – $40 8 $41 – $50 4 위의 표는 다른 가격들에 상품수를 보여준다. 도수(frequency)를 상대적으로 표현하는 것 역시 가능하다. $1 – $10 20 0.303 $11 – $20 21 0.318 $21 – $30 13 0.197 $31 – $40 8 0.121 $41 – $50 4 0.061 전체 66개의 상품수에서 각각의 도수를 나누면 상대 도수(relative frequency)가 나온다. 예시: 엑셀에서 구하기 확인차원에서 상대 도수를 합읠 다 더해보면 '1'이 나와야 한다. 상대 도수로 히스토그램을 만들 수도 있다. 상대 도수..

엑셀에서 계급폭(class width)구하기

계급폭(class width)는 데이터를 나눌 때 범위로 윗값 - 아랫값으로 정해진다. 위의 데이터는 계급폭(class width)가 4이다. 5-1 =4 10-6 =4 ... 이 경우에는 9이다 10-1 =9 20-11 = 9 ... 어떤 데이터에 계급폭(class width)가 나와있지 않다면 아래 방법으로 구할 수 있다. 계급폭(class width) = (max-min) / n max: 데이터에 최고값 min: 데이터에 최솟값 n: 사용하고자 하는 계급의 갯수 예시: 엑셀에서 계급폭(class width)구하기 위의 데이터에서 5개까지 계급의 폭을 구해보자 계급폭(class width)을 구하면 4.6이 나오는데 이것보다 큰 정수 '5'로 계급폭(class width)를 선정하면된다. 5개 계급폭..

엑셀에서 데이터 정규화(Date Normalization)하기

데이터 정규화(Date Normalization)는 데이터의 평균 0, 표준편차 1로 만드는 작업을 말한다. 예시: 데이터 정규화하기(date normalization) 위에 데이터를 정규화해보자 1단계: 평균(mean) 찾기 =AVERAGE(range) 함수 사용 2단계: 표준편차(standard deviation) 찾기 =STDEV(range) 함수 사용 3단계: 사이즈 정규화(normalizing)하기 마지막으로, =STANDARDIZE(x, mean, standard_deviation) 함수를 사용한다. Note: STANDARDIZE() 함수는 이렇게 작동한다. 정규화 값 = (x – μ) / s x = 데이터 값(value) μ = 평균(mean) s = 표준편차(standard deviati..