기초통계 106

엑셀에서 체비셰프 가정(Chebyshev's Theorem) 적용하기

체비셰프 가정(Chebyshev's Theorem)은 1보다 큰 어떤 수 k에서 1-1/k^2는 어떠한 분포에 데이터에서도 표준편차 k안에 들어간다고 정의한다. 예를 들어 1-1/3^2=88.89%의 값은 어떤 데이터의 분포에서도 표준편차x3에 들어간다. 예시1: 30에서 70 사이에 데이터에서 (30- mean) / stdev = (30 -50)/10 = -2 (70-mean) / stdev = (70-50)/10 = 2 여기서 30과 70은 평균이 50, 표준편차가 10인 데이터에서 k=2이다. 표준편차x2 안에 들어가는 데이터들은 75%이다. 30과 70사이에 들어가는 데이터는 75%이다. 예시 2: 20에서 50 사이에 데이터에서 (20- mean) / stdev = (20 -35)/5 = -3 ..

엑셀에서 카파상관분석(Fleiss's Kappa) 구하기

카파 상관분석(Fleiss's Kappa)은 3명 이상의 평가자 간에 신뢰도를 구하는 계수를 구하는 법이다. 카파상관계수(Fleiss's Kappa coefficient)는 0~1에 있다. 0: 평가자의 평가 신뢰도의 상관관계가 없다. 1: 평가자의 평가 신뢰도가 100%다. 어떻게 구하나? 아래에 그림에서 어떻게 Kappa를 구하는지 보여준다. 열 축 합(sum): 액셀에 합을 구한다. square sum: (C3^2-C3)+(D3^2-D3)+(E3^2-E3)+(F3^2-F3)+(G3^2-G3) square sum/(14*13): (C3^2-C3)+(D3^2-D3)+(E3^2-E3)+(F3^2-F3)+(G3^2-G3)/(14*13) sum: square sum/(14*13)의 합 sum/10: sum:..

엑셀에서 점이연 상관관계(Point-biserial correlation) 분석

점이연 상관관계(Point-biserial correlation)은 이분변수'x'와 연속변수'y'에 상관관계를 구하는데 사용된다. 피어스 상관계수(Pearson correlation coefficient)와 똑같이 -1~1에 값을 가진다. -1: 두 변수간 음의 상관관계가있다. 0: 두 변수간 상관관계가 없다. +1: 두변수간 양의 상관관계가 있다. 어떻게 만드는지 살펴보자 예시: 점이연 상관관계(Point-Biserial Correlation)을 구해보자 x는 이분변수 y는 연속변수 일단 =CORREL() 함수를 이용한다. 상관계수가 +값이다. 0.218163 이는 x 값이 1일 때 y 값이 0일 때 보다, 더 큰 값을 대체로 나타냄을 알 수 있다. 이를 확인하기 위해서 1일 때 y값과 0일 때 y값의..

엑셀에서 편상관관계(Partial Correlation) 구하기

두 변수 사이에 관계를 파악하기 위해 상관관계(pearson correlation coefficient)를 사용한다. 때때로 세 개의 변수 중에 하나를 제외하고 두 가지에서만 상관계수를 파악하고 싶을 때도 있다. 그때는 편상관관계(partial correlation)를 분석한다. 예를 들어 학생의 성적, 기말고사 성적, 공부 시간의 3개의 변수가 있다. 이중 학생의 성적을 제외하고 기말고사 성적과 공부와의 상관관계를 알아보고 싶다. 이러한 경우, 편상관관계(partial correlation)로 알아본다. 예시: 편상관관계(partial correlation) 구하기 1단계: 데이터를 입력한다. 2단계: 각각 상관분석을 한다. 3단계: 시간과 기말성적 사이에 편상관분석(partial correlation..

엑셀에서 누적도수(cumulative frequency)구하기

도수표(frequency table)는 빈도수에 대한 정보를 제공한다. 얼마나 많큼 그 사건이 일어났는지 말해준다. $1 – $10 20 $11 – $20 21 $21 – $30 13 $31 – $40 8 $41 – $50 4 위의 표는 도수표의 예시다. 도수표에서 누적도수(cumulative frequency)를 구하는 것 역시 가능하다. $1 – $10 20 20 $11 – $20 21 41 $21 – $30 13 54 $31 – $40 8 62 $41 – $50 4 66 두 번째 열이 도수(frequency)열이 계급 구간(class interval) 세 번째 열이 누적도수(cumulative frequency)다. 아래로 가면서 점차 누적해나간다. 20 20+21 = 41 20+21+13 = 54..

엑셀에서 상대도수(Relative Frequency) 구하기

도수표(frequnecy table)는 해당 사건이 얼마나 일어났는지 보여준다. $1 – $10 20 $11 – $20 21 $21 – $30 13 $31 – $40 8 $41 – $50 4 위의 표는 다른 가격들에 상품수를 보여준다. 도수(frequency)를 상대적으로 표현하는 것 역시 가능하다. $1 – $10 20 0.303 $11 – $20 21 0.318 $21 – $30 13 0.197 $31 – $40 8 0.121 $41 – $50 4 0.061 전체 66개의 상품수에서 각각의 도수를 나누면 상대 도수(relative frequency)가 나온다. 예시: 엑셀에서 구하기 확인차원에서 상대 도수를 합읠 다 더해보면 '1'이 나와야 한다. 상대 도수로 히스토그램을 만들 수도 있다. 상대 도수..

엑셀에서 계급폭(class width)구하기

계급폭(class width)는 데이터를 나눌 때 범위로 윗값 - 아랫값으로 정해진다. 위의 데이터는 계급폭(class width)가 4이다. 5-1 =4 10-6 =4 ... 이 경우에는 9이다 10-1 =9 20-11 = 9 ... 어떤 데이터에 계급폭(class width)가 나와있지 않다면 아래 방법으로 구할 수 있다. 계급폭(class width) = (max-min) / n max: 데이터에 최고값 min: 데이터에 최솟값 n: 사용하고자 하는 계급의 갯수 예시: 엑셀에서 계급폭(class width)구하기 위의 데이터에서 5개까지 계급의 폭을 구해보자 계급폭(class width)을 구하면 4.6이 나오는데 이것보다 큰 정수 '5'로 계급폭(class width)를 선정하면된다. 5개 계급폭..

엑셀에서 데이터 정규화(Date Normalization)하기

데이터 정규화(Date Normalization)는 데이터의 평균 0, 표준편차 1로 만드는 작업을 말한다. 예시: 데이터 정규화하기(date normalization) 위에 데이터를 정규화해보자 1단계: 평균(mean) 찾기 =AVERAGE(range) 함수 사용 2단계: 표준편차(standard deviation) 찾기 =STDEV(range) 함수 사용 3단계: 사이즈 정규화(normalizing)하기 마지막으로, =STANDARDIZE(x, mean, standard_deviation) 함수를 사용한다. Note: STANDARDIZE() 함수는 이렇게 작동한다. 정규화 값 = (x – μ) / s x = 데이터 값(value) μ = 평균(mean) s = 표준편차(standard deviati..

엑셀에서 스피어맨 서열상관분석(Spearman Rank Correlation)구하기

통계에서 상관분석(correlation Analysis)이란 두 변수 간에 크기와 방향에 관계를 말해주는 지표로 쓰인다. 상관계수(correlation coefficient)는 -1 ~ 1 사이에 범위다. -1: 두 계수가 반대 관계에 있다. 0: 두 계수에 관계는 없다. 1: 두 계수에 비례 관계에 있다. 대표적인 예시로 스피어맨 랭킹 상관분석(Spearman Rank Correlation)이 있다.(수학, 과학 성적의 상관관계를 살펴본다.) 예시: 스피어맨 랭킹 상관분석(Spearman Rank Correlatin) in Excel 1단계: 데이터 입력 2단계: 순위를 계산한다. 각각의 학생에 수학/과학 성적에 대해 순위를 매긴다. Cell D2: =RANK.AVG(B2, $B$2:$B$11, 0) ..

엑셀에서 베이즈 정리(bayes' Theorem)

베이즈 정리(bayes' theorem) A와 B사건에 대한 아래식으로 표현된다. P(A|B) = P(A)*P(B|A) / P(B) P(A|B): B가 일어났을 때, A가 일어날 확률 P(B|A): A가 일어났을 때, B가 일어날 확률 P(A): A가 일어날 확률 P(B): B가 일어날 확률 예를 들어서, 날이 흐릴 확률 40%, 흐릴 때 비가 올 확률 20%라면, 비가올 때 흐릴 확률은 85%다. P(흐림) = 0.40 P(비) = 0.20 P(흐림 | 비) = 0.85 그렇다면, Q. 흐릴 때 비가올 확률은 얼마인가? P(비| 흐림) = P(비) * P(흐림 | 비) / P(흐림) P(비 | 흐림) = 0.20 * 0.85 / 0.40 P(비 | 흐림) = 0.425 흐릴 때 비가올 확률은 42.5%..