Excel_데이터/기술적 통계 32

엑셀에서 STDEV.P 와 STDEV.S의 차이점

엑셀에서 표준편차(standard deviation)를 구하는 여러 가지 함수를 소개한다. 1.STDEV.P 모집단의 표준편차를 계산한다. 데이터 범위가 전체 모집단으로 할 때 사용한다. √Σ (xi – μ)^2 / N Σ: 합계 xi: i번째 데이터 값 μ: 모집단 평균 N: 관찰 개수(전체 데이터 크기) 2. STDEV.S 표본집단의 표준편차를 계산한다. 데이터 범위가 전체 모집단에서 채취한 표본집단일 때 사용한다. √Σ (xi – x)^2 / (n-1) Σ: 합계 xi: i번째 데이터 값 x: 표본 평균 n: 관찰 개수(전체 데이터 크기) 3.STDEV 표본집단의 표준편차를 계산한다. STEDV.S와 똑같은 값을 반환한다. Note 표본의 표준편차에서 N 대신 n-1을 사용한다. 표본의 크기는 항상..

엑셀에서 가중 표준 편차(Weighted Standard Deviation)구하기

가중 표준편차(weighted standard deviation)는 일부 데이터에 더 가중을 둬서 데이터의 분산(dispersion)을 구하는 방법이다. 가중 표준편차(weighted standard deviation)를 구하는 방법은 이렇다. N: 전체 관찰값의 크기 M: 가중치가 0이 아닌 가중치 수 wi: i번째 관찰값의 가중치 xi: i번째 데이터 값 x: 가중치 평균 가중표준편차(weighted standard deivation)를 단계별로 구해보자 1단계: 데이터 생성 2단계: 가중 평균 계산 =SUMPRODUCT(A2:A11,B2:B11)/SUM(B2:B11) 가중치 평균(Weighted Mean)은 31.147 3단계: 가중 표준편차(Weighed Standard Deviation) 구하기..

엑셀에서 피어슨 비대칭계수(Pearson's Coefficient of Skewness) 구하기

생물통계학자 Karl Pearson에 의해 고안된 통계지표가 피어슨 비대칭계수(Pearson's Coefficient of Skewness)다. 피어슨 비대칭계수(Pearson's Coefficient of Skewness)는 왜도(Skewness)를 측정하는데 용이하다. 피어슨 비대칭계수(Pearson's Coefficient of Skewness)를 구하는 두 가지 방법이 아래에 있다. 방법 1: 최빈수(mode) 이용하기 왜도(skewnesss) = (평균 - 최빈수)/표본 표준편차 방법 2: 중앙값(median) 이용하기 왜도(skewnesss) = 3*(평균 - 중앙값)/표본 표준편차 방법 1보다 방법 2가 더 많이 사용된다. 최빈수(mode)는 데이터에 중앙(the center of data)..

엑셀에서 데이터 윈저화(Data Winsorization)하기

윈저화(winsorization)은 이상치(outlier)를 처리하는 기법으로 이상치를 특정 백분위수(percentile)에 값으로 치환해버린다. 예를 들어 90% 윈저화(winsorization)을 하게 되면 95 번째 값보다 큰 데이터는 모두 95 번째 데이터로 치환한다. 또는 5 번째 데이터 값보다 낮은 데이터는 모두 5 번째 데이터로 치환한다. 어떻게 하는지 예시를 보자 1단계: 데이터 셋팅 2단계: 5%,95% 백분위수 구하기 PERCENTILE(array, k) 함수를 이용해서 5 째, 95 쨰 백분위수를 구해준다. 5% 백분위수 12.35 95% 백분위수 92.05 3단계: 윈저화(Winsorization) 한다. IF(Condition, True, False) 함수로 크거나 작거나, 조건을..

엑셀에서 통계 확률(probablilty) 구하기

PROB() 함수를 이용해서 엑셀에서 확률을 구할 수 있다. PROB(x_range, prob_range, lower_limit, [upper_limit]) x_range: x의 범위 prob_range: 확률의 범위 lower_limit: 확률을 알고 싶은 최소 범위 upper_limit: 확률을 알고 싶은 최고 범위 사용 예시를 살펴보자 예시 1: 주사위 확률 아래에 주사위 나올 확률표가 있다. 주사위의 각면에 나올 확률이 동일하여 같은 값을 가진다. 여기서 PROB()함수로 4에서 6이 나올 확률을 구해본다. 예시 2: 판매 확률 다음은 회사에서 판매하는 상품이 팔릴 확률이다. 3이나 4가 팔릴 확률을 구해보자

엑셀에서 10단계 그룹화(Decile)구하기

통계에서 Decile은 데이터를 10단계로 그룹화는 것을 말한다. 첫 번째 Decile은 아래에서 10%의 데이터 값을 포함한다. 두 번째 Decile은 아래에서 20%의 데이터 값을 포함한다. =PERCENTILE(CELL RANGE, PERCENTILE) 위의 함수로 Decile을 구할 수 있다. cell range에 데이터 array를 넣고, percentile에 원하는 %를 넣는다. 예시 1: 20%에 데이터는 67.8 아래에 있다. 30%에 데이터는 76.5 아래에 있다. 40%에 데이터는 83.6 아래에 있다. 각각의 데이터의 decile에 넣기 위해서 PERCENTILERANK.EXC() 함수를 사용한다. =PERCENTRANK.EXC(CELL RANGE, DATA VALUE, SIGNIFI..

엑셀에서 유클리드 거리(Euclidean Distance)구하기

두 벡터 간 유클리디안 거리(Euclidean distane)는 다음과 같이 나타낸다. Euclidean distance = √Σ(Ai-Bi) 2 Σ: 합계 Ai: A벡터의 i번째 요소의 값 Bi: B벡터의 i번째 요소의 값 엑셀에서는 함수들을 이용해서 구할 수 있다. =SQRT(SUMXMY2(RANGE1, RANGE2)) SUMXMY2: range1과 range2의 각각의 요소들에 차에 제곱을 구해준다. SQRT: 루트(root)를 씌워준다. 유클리드 거리는 12.40967이다. 유클리드 거리는 반드시 대칭되는 두 배열(array), 범위(ragne), 벡터(vector), 크기(size)끼리만 적용된다. 예를 들어 이 두 차원이 다른 a, b 사이에 유클리드 거리는 성립되지 않는다.

엑셀에서 해밍거리(hamming distance)구하기

해밍 거리(hamming distance)는 단순하게 두 벡터 간에 공통된 값(element)들의 개수에 합이다. x = [1, 2, 3, 4] y = [1, 2, 5, 7] 에서 해밍거리(hamming distance)는 '2'다. =COUNT(RANGE1)-SUMPRODUCT(--(RANGE1 = RANGE2)) 엑셀에서 해밍거리(hamming distance)는 이렇게 구한다. COUNT: 첫 번째 행에 갯수를 구한다.(행열의 크기) RANGE1 = RANGE2 각각의 열을 비교하여 TRUE or FALSE로 반환(return)한다. – – TRUE and FALSE 값을 0 and 1로 전환한다. SUMPRODUCT: 매칭되는 값(element)끼리 곱한다. 예시: 두 이진수 벡터 간 해밍 거리(..

엑셀에서 상대표준편차(Relative Standard Deviation) 계산하기

상대표준편차(Relatie Standard Deviation)는 표본 집단(Sample)의 평균(mean)에 대비해서 표본의 표준편차(Standard Deviation)을 측정한다. 상대표준편차(Relative standard deviation) = s / x * 100% s: 표본 표준편차 x: 표본 평균 상대표준편차(Relative standard deviation)로 데이터값들이 평균(mean)에 얼마만큼 밀집되어 있는지 볼 수 있다. 예를들어 표준편차 4, 평균 400이면, 상대표준편차(relative standard deviation)은 4/400*100% = 1%다. 이 수치가 작으면 작을 수록 더 평균에 값들이 밀집해있다. 만약, 표준편차 40, 평균 400이면, 상대표준편차(relative..

엑셀에서 카파상관분석(Fleiss's Kappa) 구하기

카파 상관분석(Fleiss's Kappa)은 3명 이상의 평가자 간에 신뢰도를 구하는 계수를 구하는 법이다. 카파상관계수(Fleiss's Kappa coefficient)는 0~1에 있다. 0: 평가자의 평가 신뢰도의 상관관계가 없다. 1: 평가자의 평가 신뢰도가 100%다. 어떻게 구하나? 아래에 그림에서 어떻게 Kappa를 구하는지 보여준다. 열 축 합(sum): 액셀에 합을 구한다. square sum: (C3^2-C3)+(D3^2-D3)+(E3^2-E3)+(F3^2-F3)+(G3^2-G3) square sum/(14*13): (C3^2-C3)+(D3^2-D3)+(E3^2-E3)+(F3^2-F3)+(G3^2-G3)/(14*13) sum: square sum/(14*13)의 합 sum/10: sum:..