기술적통계 32

엑셀에서 스피어맨 서열상관분석(Spearman Rank Correlation)구하기

통계에서 상관분석(correlation Analysis)이란 두 변수 간에 크기와 방향에 관계를 말해주는 지표로 쓰인다. 상관계수(correlation coefficient)는 -1 ~ 1 사이에 범위다. -1: 두 계수가 반대 관계에 있다. 0: 두 계수에 관계는 없다. 1: 두 계수에 비례 관계에 있다. 대표적인 예시로 스피어맨 랭킹 상관분석(Spearman Rank Correlation)이 있다.(수학, 과학 성적의 상관관계를 살펴본다.) 예시: 스피어맨 랭킹 상관분석(Spearman Rank Correlatin) in Excel 1단계: 데이터 입력 2단계: 순위를 계산한다. 각각의 학생에 수학/과학 성적에 대해 순위를 매긴다. Cell D2: =RANK.AVG(B2, $B$2:$B$11, 0) ..

엑셀에서 베이즈 정리(bayes' Theorem)

베이즈 정리(bayes' theorem) A와 B사건에 대한 아래식으로 표현된다. P(A|B) = P(A)*P(B|A) / P(B) P(A|B): B가 일어났을 때, A가 일어날 확률 P(B|A): A가 일어났을 때, B가 일어날 확률 P(A): A가 일어날 확률 P(B): B가 일어날 확률 예를 들어서, 날이 흐릴 확률 40%, 흐릴 때 비가 올 확률 20%라면, 비가올 때 흐릴 확률은 85%다. P(흐림) = 0.40 P(비) = 0.20 P(흐림 | 비) = 0.85 그렇다면, Q. 흐릴 때 비가올 확률은 얼마인가? P(비| 흐림) = P(비) * P(흐림 | 비) / P(흐림) P(비 | 흐림) = 0.20 * 0.85 / 0.40 P(비 | 흐림) = 0.425 흐릴 때 비가올 확률은 42.5%..

엑셀에서 조건부 확률(Conditional Probability)구하기

조건부 확률(conditional probability)은 B사건이 일어났을 때, A 사건이 일어나는 확률이다. P(A|B) = P(A∩B) / P(B) P(A∩B) = A와B 사건이 동시에 일어날 확률 P(B) = B사건이 일어날 확률 조건부 확률(conditional probability)은 두 개의 조건이 동시에 존재하는 테이블에서 확률을 구하는데 특히 유용하게 사용된다. 첫 번째 조건: 남자-여자 두 번쨰 조건: 야구-농구-축구-게임 두 조건에 대해 각각을 테이블로 작성해 놓았다. 위와 같은 형태에서 조건부 확률(conditional probability)을 유용하게 쓸 수 있다. 어떻게 계산하는가 in Excel Q: "야구를 좋아하면서, 남자 사람일 확률은 얼마인가?" A: P(남/야구) = ..

엑셀에서 벡터의 내적(Dot Product)구하기

엑셀에서 벡터의 내적(dot product)을 구해본다. 내적(dot product)란 무엇인가 두 벡터가 있다. a = [a1, a2, a3] b = [b1, b2, b3] 이 두 벡터를 내적(dot product)하면 각 벡터의 각 성분(x, y, z)의 값끼리 곱한 값들을 더한다. 그러면 스칼라(scaler) 값이 나온다. a · b = a1 * b1 + a2 * b2 + a3 * b3 a = [2, 5, 6] b = [4, 3, 2] a · b = 2*4 + 5*3 + 6*2 a · b = 8 + 15 + 12 a · b = 35 어떻게 벡터의 내적을 찾는가? 엑셀에서 제공하는 SUMPRODUCT() 함수를 사용한다. SUMPRODUCT(array1, [array2], ...) a = [2, 5,..

엑셀에서 생존 곡선(Survival Curve) 구하기

생존 곡선(survival curve)은 특정 이벤트 후에 생존의 유무를 파악하는 걸 분석해놓은 도표다. 생존 곡선(survival curve) 만들기 Column A: 의료 처방 Column B: 생존수 생존 곡선(survival curve)을 하기에 적합한 데이터 포맷으로 만드는 작업이 필요하다. 데이터 포맷하기 1단계: Column A에 있는 모든 의료 처방 사례를 Column D로 옮긴다. 참조: 시작할 때 '0'을 첨가 2단계: 아래에 함수대로 E에H까지 열(column)을 만든다. E3: =COUNTIFS($A$2:$A$16,D3,$B$2:$B$16,1) F2: =COUNTIF($A$2:$A$16, “>”&D2-1) G3: =1-(E3/F3) H2: =1 H3: =H2*G3 생존 곡선(Surv..

엑셀에서 분할표(contingency table)만들기

분할표(contingency table)는 두 분류의 변수들에 관계를 요약해주는 테이블이다. 피벗 테이블 기능을 이용하면 쉽게 분할표(contingency table)를 만들 수 있다. 예시 아래의 예시표를 보자 1단계: 피벗테이블 클릭 데이터 범위 A1:C21 피벗테이블 표시장소: E2 확인을 누린다. 2단계: 이제 테이블을 채운다. Product는 행(Rows) Country는 열(Columns) Order Number는 값(Values)로 세팅한다. "합계 : Order Number"로 표시되면 Order Number 피벗 설정에서 개수(count)로 바꿔라. 결과는 이렇다. 3단계: 해석하기 행(raw) A 국가에서 총 4개 주문 B국가에서 총 8개 주문 C 국가에서 총 8개 주문 열(column..

엑셀에서 도수분포(frequency distribution)구하기

도수분포(frequency distribution)는 설정된 인터벌(Interval) 안에 데이터 값들이 얼마나 분포해있는지 나타낸다. 도수분포(frequency distribution)는 데이터에 데이터값들이 어떻게 분포하고 있는지 보여준다. 엑셀에서 도수분포(frequency distribution)을 구하기는 아래에 함수를 이용하면 쉽게 구할 수 있다. =FREQUENCY(data_array, bins_array) data_array: 데이터 범위 bins_array: 데이터 인터벌(interval) 아래 예시를 보자 예시: 엑셀에서 도수분포(frequency distribution) 20개의 데이터 셋에서 10단위로 bin을 설정한다. 그리고 =FREQUENCY()함수를 사용한다. =FREQUEN..

엑셀에서 공분산표(covariance matrix) 구하기

공분산(covariance) 하나의 변수(variable)에 또 다른 변수(variable)가 어떻게 변화하는지 상관관계를 보여주는 지표다. 구체적으로 두 변수간 선형적 관계 정도를 보여준다. COV(X, Y) = Σ(x-μ)(y-γ) / n 위의 공식으로 x와 y사이에 공분산(covariance)를 구할 수 있다. 공분산은 쉽고, 유용하게 두 변수간 선형적 관계 정도를 알 수 있게 해 준다. 공분산 표(covariance matrix)를 구해보기 아래와 같이 3개의 과목에서 10명의 학생에 성적이 있다. 엑셀 항목에서 데이터 > 데이터 분석 > 공분산 분석 입력 범위에 분석할 데이터 범위를 입력한다. 첫째 행 이름표 사용 박스에 체크표시를 한다. 이는 첫 번째 1x1을 라벨 값으로 사용하겠다는 표시다...

엑셀에서 평균표준오차(standard error of the mean) 구하기

평균 표준오차(standard error of the mean)는 데이터가 얼마나 퍼져있나를 알려주는 데이터 지표다. standard error= s / √n s: 표본 표준편차 n: 표본 크기 Excel에 내장된 함수들을 조합해서 평균 표준오차(standard error of the mean)를 구할 수 있다. =STDEV(range) / SQRT(COUNT(range)) 표준오차 2.0014로 구할 수 있다. 여기에 3개의 함수가 쓰였다. =STEDV(): 표본의 표준편차를 구했다. =STEDV.S()와 동일하다. 고로, =STDEV.S($A$2:$A$21)/SQRT(COUNT($A$2:$A$21)) 로 해도 결과는 동일하다. 표준오차(Standard Error of the Mean)을 어떻게 해석할..

엑셀에서 왜도(Skewness)구하기

왜도(skewness)는 데이터 분포에 비대칭 정도를 보여주는 수치다. 값은 +또는-일 수 있다. 왜도(skewness)로 분포 모형을 유추하는데 도움이 된다. 왜도(skewness)의 -값은 꼬리가 왼쪽에 꼬리 넓이가 더 크다. 왜도(skewness)의 +값은 꼬리가 왼쪽에 꼬리 넓이가 더 크다. 왜도(skewness)의 0 값은 꼬리가 기울어짐 없이 평균값(mean)에 대칭이다. 구하는 법 =SKEW(array) 함수가 엑셀에 있다. 이 함수는 SKEWNESS = [n/(n-1)(n-2)] * Σ[(xi–x)/s]3 n = 표본 크기 Σ = 합 xi = i번째 데이터의 값 x = 평균 s = 표준편차 엑셀에서 위의 복잡한 식을 함수 하나로 간단하게 계산해준다. 예제 위의 표에서 왜도(skewness)..