기초통계 106

엑셀에서 조건부 확률(Conditional Probability)구하기

조건부 확률(conditional probability)은 B사건이 일어났을 때, A 사건이 일어나는 확률이다. P(A|B) = P(A∩B) / P(B) P(A∩B) = A와B 사건이 동시에 일어날 확률 P(B) = B사건이 일어날 확률 조건부 확률(conditional probability)은 두 개의 조건이 동시에 존재하는 테이블에서 확률을 구하는데 특히 유용하게 사용된다. 첫 번째 조건: 남자-여자 두 번쨰 조건: 야구-농구-축구-게임 두 조건에 대해 각각을 테이블로 작성해 놓았다. 위와 같은 형태에서 조건부 확률(conditional probability)을 유용하게 쓸 수 있다. 어떻게 계산하는가 in Excel Q: "야구를 좋아하면서, 남자 사람일 확률은 얼마인가?" A: P(남/야구) = ..

엑셀에서 벡터의 내적(Dot Product)구하기

엑셀에서 벡터의 내적(dot product)을 구해본다. 내적(dot product)란 무엇인가 두 벡터가 있다. a = [a1, a2, a3] b = [b1, b2, b3] 이 두 벡터를 내적(dot product)하면 각 벡터의 각 성분(x, y, z)의 값끼리 곱한 값들을 더한다. 그러면 스칼라(scaler) 값이 나온다. a · b = a1 * b1 + a2 * b2 + a3 * b3 a = [2, 5, 6] b = [4, 3, 2] a · b = 2*4 + 5*3 + 6*2 a · b = 8 + 15 + 12 a · b = 35 어떻게 벡터의 내적을 찾는가? 엑셀에서 제공하는 SUMPRODUCT() 함수를 사용한다. SUMPRODUCT(array1, [array2], ...) a = [2, 5,..

엑셀에서 생존 곡선(Survival Curve) 구하기

생존 곡선(survival curve)은 특정 이벤트 후에 생존의 유무를 파악하는 걸 분석해놓은 도표다. 생존 곡선(survival curve) 만들기 Column A: 의료 처방 Column B: 생존수 생존 곡선(survival curve)을 하기에 적합한 데이터 포맷으로 만드는 작업이 필요하다. 데이터 포맷하기 1단계: Column A에 있는 모든 의료 처방 사례를 Column D로 옮긴다. 참조: 시작할 때 '0'을 첨가 2단계: 아래에 함수대로 E에H까지 열(column)을 만든다. E3: =COUNTIFS($A$2:$A$16,D3,$B$2:$B$16,1) F2: =COUNTIF($A$2:$A$16, “>”&D2-1) G3: =1-(E3/F3) H2: =1 H3: =H2*G3 생존 곡선(Surv..

엑셀에서 분할표(contingency table)만들기

분할표(contingency table)는 두 분류의 변수들에 관계를 요약해주는 테이블이다. 피벗 테이블 기능을 이용하면 쉽게 분할표(contingency table)를 만들 수 있다. 예시 아래의 예시표를 보자 1단계: 피벗테이블 클릭 데이터 범위 A1:C21 피벗테이블 표시장소: E2 확인을 누린다. 2단계: 이제 테이블을 채운다. Product는 행(Rows) Country는 열(Columns) Order Number는 값(Values)로 세팅한다. "합계 : Order Number"로 표시되면 Order Number 피벗 설정에서 개수(count)로 바꿔라. 결과는 이렇다. 3단계: 해석하기 행(raw) A 국가에서 총 4개 주문 B국가에서 총 8개 주문 C 국가에서 총 8개 주문 열(column..

엑셀에서 도수분포(frequency distribution)구하기

도수분포(frequency distribution)는 설정된 인터벌(Interval) 안에 데이터 값들이 얼마나 분포해있는지 나타낸다. 도수분포(frequency distribution)는 데이터에 데이터값들이 어떻게 분포하고 있는지 보여준다. 엑셀에서 도수분포(frequency distribution)을 구하기는 아래에 함수를 이용하면 쉽게 구할 수 있다. =FREQUENCY(data_array, bins_array) data_array: 데이터 범위 bins_array: 데이터 인터벌(interval) 아래 예시를 보자 예시: 엑셀에서 도수분포(frequency distribution) 20개의 데이터 셋에서 10단위로 bin을 설정한다. 그리고 =FREQUENCY()함수를 사용한다. =FREQUEN..

엑셀에서 공분산표(covariance matrix) 구하기

공분산(covariance) 하나의 변수(variable)에 또 다른 변수(variable)가 어떻게 변화하는지 상관관계를 보여주는 지표다. 구체적으로 두 변수간 선형적 관계 정도를 보여준다. COV(X, Y) = Σ(x-μ)(y-γ) / n 위의 공식으로 x와 y사이에 공분산(covariance)를 구할 수 있다. 공분산은 쉽고, 유용하게 두 변수간 선형적 관계 정도를 알 수 있게 해 준다. 공분산 표(covariance matrix)를 구해보기 아래와 같이 3개의 과목에서 10명의 학생에 성적이 있다. 엑셀 항목에서 데이터 > 데이터 분석 > 공분산 분석 입력 범위에 분석할 데이터 범위를 입력한다. 첫째 행 이름표 사용 박스에 체크표시를 한다. 이는 첫 번째 1x1을 라벨 값으로 사용하겠다는 표시다...