전체 글 149

엑셀에서 10단계 그룹화(Decile)구하기

통계에서 Decile은 데이터를 10단계로 그룹화는 것을 말한다. 첫 번째 Decile은 아래에서 10%의 데이터 값을 포함한다. 두 번째 Decile은 아래에서 20%의 데이터 값을 포함한다. =PERCENTILE(CELL RANGE, PERCENTILE) 위의 함수로 Decile을 구할 수 있다. cell range에 데이터 array를 넣고, percentile에 원하는 %를 넣는다. 예시 1: 20%에 데이터는 67.8 아래에 있다. 30%에 데이터는 76.5 아래에 있다. 40%에 데이터는 83.6 아래에 있다. 각각의 데이터의 decile에 넣기 위해서 PERCENTILERANK.EXC() 함수를 사용한다. =PERCENTRANK.EXC(CELL RANGE, DATA VALUE, SIGNIFI..

[DataFrame] 열(column)합계 계산하기

sum() sum() 함수를 이용해서 판 다스(pandas)에서 열에 합계를 계산한다. 몇 가지 예시를 보여준다. 예시1: df 프래임을 만들었다. rating, points, assist, rebounds열로 구성돼있다. df ['point']. sum() df ['rebounds']. sum()으로 열 하나에 합계를 구할 수 있다. 예시 2: 두 개 열 합찾기 df[['rebounds', 'points']]. sum()로 두열에 합창을 수 있다. 예시 3: 모든 열에 합찾기 df.sum()으로 모든 열에 합을 찾을 수 있다. 숫자를 포함하지 않은 열에 sum() 함수를 사용하면 예상치 못한 결과를 초례할 수도 있다. sum() 함수에 추가사항은 여기서. pandas.pydata.org/pandas-d..

엑셀에서 유클리드 거리(Euclidean Distance)구하기

두 벡터 간 유클리디안 거리(Euclidean distane)는 다음과 같이 나타낸다. Euclidean distance = √Σ(Ai-Bi) 2 Σ: 합계 Ai: A벡터의 i번째 요소의 값 Bi: B벡터의 i번째 요소의 값 엑셀에서는 함수들을 이용해서 구할 수 있다. =SQRT(SUMXMY2(RANGE1, RANGE2)) SUMXMY2: range1과 range2의 각각의 요소들에 차에 제곱을 구해준다. SQRT: 루트(root)를 씌워준다. 유클리드 거리는 12.40967이다. 유클리드 거리는 반드시 대칭되는 두 배열(array), 범위(ragne), 벡터(vector), 크기(size)끼리만 적용된다. 예를 들어 이 두 차원이 다른 a, b 사이에 유클리드 거리는 성립되지 않는다.

엑셀에서 해밍거리(hamming distance)구하기

해밍 거리(hamming distance)는 단순하게 두 벡터 간에 공통된 값(element)들의 개수에 합이다. x = [1, 2, 3, 4] y = [1, 2, 5, 7] 에서 해밍거리(hamming distance)는 '2'다. =COUNT(RANGE1)-SUMPRODUCT(--(RANGE1 = RANGE2)) 엑셀에서 해밍거리(hamming distance)는 이렇게 구한다. COUNT: 첫 번째 행에 갯수를 구한다.(행열의 크기) RANGE1 = RANGE2 각각의 열을 비교하여 TRUE or FALSE로 반환(return)한다. – – TRUE and FALSE 값을 0 and 1로 전환한다. SUMPRODUCT: 매칭되는 값(element)끼리 곱한다. 예시: 두 이진수 벡터 간 해밍 거리(..

엑셀에서 상대표준편차(Relative Standard Deviation) 계산하기

상대표준편차(Relatie Standard Deviation)는 표본 집단(Sample)의 평균(mean)에 대비해서 표본의 표준편차(Standard Deviation)을 측정한다. 상대표준편차(Relative standard deviation) = s / x * 100% s: 표본 표준편차 x: 표본 평균 상대표준편차(Relative standard deviation)로 데이터값들이 평균(mean)에 얼마만큼 밀집되어 있는지 볼 수 있다. 예를들어 표준편차 4, 평균 400이면, 상대표준편차(relative standard deviation)은 4/400*100% = 1%다. 이 수치가 작으면 작을 수록 더 평균에 값들이 밀집해있다. 만약, 표준편차 40, 평균 400이면, 상대표준편차(relative..

엑셀에서 체비셰프 가정(Chebyshev's Theorem) 적용하기

체비셰프 가정(Chebyshev's Theorem)은 1보다 큰 어떤 수 k에서 1-1/k^2는 어떠한 분포에 데이터에서도 표준편차 k안에 들어간다고 정의한다. 예를 들어 1-1/3^2=88.89%의 값은 어떤 데이터의 분포에서도 표준편차x3에 들어간다. 예시1: 30에서 70 사이에 데이터에서 (30- mean) / stdev = (30 -50)/10 = -2 (70-mean) / stdev = (70-50)/10 = 2 여기서 30과 70은 평균이 50, 표준편차가 10인 데이터에서 k=2이다. 표준편차x2 안에 들어가는 데이터들은 75%이다. 30과 70사이에 들어가는 데이터는 75%이다. 예시 2: 20에서 50 사이에 데이터에서 (20- mean) / stdev = (20 -35)/5 = -3 ..

엑셀에서 카파상관분석(Fleiss's Kappa) 구하기

카파 상관분석(Fleiss's Kappa)은 3명 이상의 평가자 간에 신뢰도를 구하는 계수를 구하는 법이다. 카파상관계수(Fleiss's Kappa coefficient)는 0~1에 있다. 0: 평가자의 평가 신뢰도의 상관관계가 없다. 1: 평가자의 평가 신뢰도가 100%다. 어떻게 구하나? 아래에 그림에서 어떻게 Kappa를 구하는지 보여준다. 열 축 합(sum): 액셀에 합을 구한다. square sum: (C3^2-C3)+(D3^2-D3)+(E3^2-E3)+(F3^2-F3)+(G3^2-G3) square sum/(14*13): (C3^2-C3)+(D3^2-D3)+(E3^2-E3)+(F3^2-F3)+(G3^2-G3)/(14*13) sum: square sum/(14*13)의 합 sum/10: sum:..

엑셀에서 이상치(Outlier) 빨리 찾기

이상치(outlier)는 비정상적으로 데이터 분포에서 멀리 떨어져 있는 데이터 값이다. 이상치(outlier)는 여러 통계 수치를 계산하는데 영향을 끼쳐 값에 신뢰도를 떨어뜨리거나, 해석에 오류를 범하게 하는 문제를 일으킨다. 위의 데이터에 이상치를 알아보자 방법 1: IQR(Interquartile Range)로 구하기 IQR은 Q3-Q1으로 데이터에서 50%에 값을 지시한다. 만약 Q3에서 IQR의 1.5배 한 값보다 크거나, Q1에서 IQR에 1.5배 아래에 이상치(outlier)로 간주한다. 계산해보면 아래와 같다. 164가 이상치(outlier)로 잡혔다. 방법 2: z-스코어 사용하기 z = (X – μ) / σ X : 데이터 값 μ : 모평균 σ : 모 표준편차 만약 z 값이 -3보다 작고,..