Excel 112

엑셀에서 베이즈 정리(bayes' Theorem)

베이즈 정리(bayes' theorem) A와 B사건에 대한 아래식으로 표현된다. P(A|B) = P(A)*P(B|A) / P(B) P(A|B): B가 일어났을 때, A가 일어날 확률 P(B|A): A가 일어났을 때, B가 일어날 확률 P(A): A가 일어날 확률 P(B): B가 일어날 확률 예를 들어서, 날이 흐릴 확률 40%, 흐릴 때 비가 올 확률 20%라면, 비가올 때 흐릴 확률은 85%다. P(흐림) = 0.40 P(비) = 0.20 P(흐림 | 비) = 0.85 그렇다면, Q. 흐릴 때 비가올 확률은 얼마인가? P(비| 흐림) = P(비) * P(흐림 | 비) / P(흐림) P(비 | 흐림) = 0.20 * 0.85 / 0.40 P(비 | 흐림) = 0.425 흐릴 때 비가올 확률은 42.5%..

엑셀에서 조건부 확률(Conditional Probability)구하기

조건부 확률(conditional probability)은 B사건이 일어났을 때, A 사건이 일어나는 확률이다. P(A|B) = P(A∩B) / P(B) P(A∩B) = A와B 사건이 동시에 일어날 확률 P(B) = B사건이 일어날 확률 조건부 확률(conditional probability)은 두 개의 조건이 동시에 존재하는 테이블에서 확률을 구하는데 특히 유용하게 사용된다. 첫 번째 조건: 남자-여자 두 번쨰 조건: 야구-농구-축구-게임 두 조건에 대해 각각을 테이블로 작성해 놓았다. 위와 같은 형태에서 조건부 확률(conditional probability)을 유용하게 쓸 수 있다. 어떻게 계산하는가 in Excel Q: "야구를 좋아하면서, 남자 사람일 확률은 얼마인가?" A: P(남/야구) = ..

엑셀에서 벡터의 내적(Dot Product)구하기

엑셀에서 벡터의 내적(dot product)을 구해본다. 내적(dot product)란 무엇인가 두 벡터가 있다. a = [a1, a2, a3] b = [b1, b2, b3] 이 두 벡터를 내적(dot product)하면 각 벡터의 각 성분(x, y, z)의 값끼리 곱한 값들을 더한다. 그러면 스칼라(scaler) 값이 나온다. a · b = a1 * b1 + a2 * b2 + a3 * b3 a = [2, 5, 6] b = [4, 3, 2] a · b = 2*4 + 5*3 + 6*2 a · b = 8 + 15 + 12 a · b = 35 어떻게 벡터의 내적을 찾는가? 엑셀에서 제공하는 SUMPRODUCT() 함수를 사용한다. SUMPRODUCT(array1, [array2], ...) a = [2, 5,..

엑셀에서 생존 곡선(Survival Curve) 구하기

생존 곡선(survival curve)은 특정 이벤트 후에 생존의 유무를 파악하는 걸 분석해놓은 도표다. 생존 곡선(survival curve) 만들기 Column A: 의료 처방 Column B: 생존수 생존 곡선(survival curve)을 하기에 적합한 데이터 포맷으로 만드는 작업이 필요하다. 데이터 포맷하기 1단계: Column A에 있는 모든 의료 처방 사례를 Column D로 옮긴다. 참조: 시작할 때 '0'을 첨가 2단계: 아래에 함수대로 E에H까지 열(column)을 만든다. E3: =COUNTIFS($A$2:$A$16,D3,$B$2:$B$16,1) F2: =COUNTIF($A$2:$A$16, “>”&D2-1) G3: =1-(E3/F3) H2: =1 H3: =H2*G3 생존 곡선(Surv..

엑셀에서 분할표(contingency table)만들기

분할표(contingency table)는 두 분류의 변수들에 관계를 요약해주는 테이블이다. 피벗 테이블 기능을 이용하면 쉽게 분할표(contingency table)를 만들 수 있다. 예시 아래의 예시표를 보자 1단계: 피벗테이블 클릭 데이터 범위 A1:C21 피벗테이블 표시장소: E2 확인을 누린다. 2단계: 이제 테이블을 채운다. Product는 행(Rows) Country는 열(Columns) Order Number는 값(Values)로 세팅한다. "합계 : Order Number"로 표시되면 Order Number 피벗 설정에서 개수(count)로 바꿔라. 결과는 이렇다. 3단계: 해석하기 행(raw) A 국가에서 총 4개 주문 B국가에서 총 8개 주문 C 국가에서 총 8개 주문 열(column..

엑셀에서 도수분포(frequency distribution)구하기

도수분포(frequency distribution)는 설정된 인터벌(Interval) 안에 데이터 값들이 얼마나 분포해있는지 나타낸다. 도수분포(frequency distribution)는 데이터에 데이터값들이 어떻게 분포하고 있는지 보여준다. 엑셀에서 도수분포(frequency distribution)을 구하기는 아래에 함수를 이용하면 쉽게 구할 수 있다. =FREQUENCY(data_array, bins_array) data_array: 데이터 범위 bins_array: 데이터 인터벌(interval) 아래 예시를 보자 예시: 엑셀에서 도수분포(frequency distribution) 20개의 데이터 셋에서 10단위로 bin을 설정한다. 그리고 =FREQUENCY()함수를 사용한다. =FREQUEN..

엑셀에서 공분산표(covariance matrix) 구하기

공분산(covariance) 하나의 변수(variable)에 또 다른 변수(variable)가 어떻게 변화하는지 상관관계를 보여주는 지표다. 구체적으로 두 변수간 선형적 관계 정도를 보여준다. COV(X, Y) = Σ(x-μ)(y-γ) / n 위의 공식으로 x와 y사이에 공분산(covariance)를 구할 수 있다. 공분산은 쉽고, 유용하게 두 변수간 선형적 관계 정도를 알 수 있게 해 준다. 공분산 표(covariance matrix)를 구해보기 아래와 같이 3개의 과목에서 10명의 학생에 성적이 있다. 엑셀 항목에서 데이터 > 데이터 분석 > 공분산 분석 입력 범위에 분석할 데이터 범위를 입력한다. 첫째 행 이름표 사용 박스에 체크표시를 한다. 이는 첫 번째 1x1을 라벨 값으로 사용하겠다는 표시다...

엑셀에서 평균표준오차(standard error of the mean) 구하기

평균 표준오차(standard error of the mean)는 데이터가 얼마나 퍼져있나를 알려주는 데이터 지표다. standard error= s / √n s: 표본 표준편차 n: 표본 크기 Excel에 내장된 함수들을 조합해서 평균 표준오차(standard error of the mean)를 구할 수 있다. =STDEV(range) / SQRT(COUNT(range)) 표준오차 2.0014로 구할 수 있다. 여기에 3개의 함수가 쓰였다. =STEDV(): 표본의 표준편차를 구했다. =STEDV.S()와 동일하다. 고로, =STDEV.S($A$2:$A$21)/SQRT(COUNT($A$2:$A$21)) 로 해도 결과는 동일하다. 표준오차(Standard Error of the Mean)을 어떻게 해석할..

엑셀에서 왜도(Skewness)구하기

왜도(skewness)는 데이터 분포에 비대칭 정도를 보여주는 수치다. 값은 +또는-일 수 있다. 왜도(skewness)로 분포 모형을 유추하는데 도움이 된다. 왜도(skewness)의 -값은 꼬리가 왼쪽에 꼬리 넓이가 더 크다. 왜도(skewness)의 +값은 꼬리가 왼쪽에 꼬리 넓이가 더 크다. 왜도(skewness)의 0 값은 꼬리가 기울어짐 없이 평균값(mean)에 대칭이다. 구하는 법 =SKEW(array) 함수가 엑셀에 있다. 이 함수는 SKEWNESS = [n/(n-1)(n-2)] * Σ[(xi–x)/s]3 n = 표본 크기 Σ = 합 xi = i번째 데이터의 값 x = 평균 s = 표준편차 엑셀에서 위의 복잡한 식을 함수 하나로 간단하게 계산해준다. 예제 위의 표에서 왜도(skewness)..

엑셀에서 변동계수(CV, coefficient of variation) 구하기

변동 계수(CV, coefficient of variation)는 데이터의 퍼짐 정도와 데이터의 평균값에 관계를 나타낸다. CV= σ/μ σ = 표준편차(standard deviation) μ = 평균(mean) 위의 식에서 보면 변동 계수(CV, coffiecient of variation)는 수학 기호로 단순히 표준편차/평균값이다. 어디에 쓰이는가? 변동 계수(CV, coefficient of variation)는 두 데이터 간에 비교하는 데 사용된다. 이를테면 두 기대수익률 데이터에서 평균과 표준편차의 관계로 두 기대수익률을 비교하여 리스크 판단과 손절각을 결정하는 도구로 사용된다. A 펀드: 평균 7%, 표준편차= 12.4% B 펀드: 평균 5%, 표준편차 = 8.2% A펀드 CV: 12.4/7 ..