컴퓨터활용 110

엑셀에서 벡터의 내적(Dot Product)구하기

엑셀에서 벡터의 내적(dot product)을 구해본다. 내적(dot product)란 무엇인가 두 벡터가 있다. a = [a1, a2, a3] b = [b1, b2, b3] 이 두 벡터를 내적(dot product)하면 각 벡터의 각 성분(x, y, z)의 값끼리 곱한 값들을 더한다. 그러면 스칼라(scaler) 값이 나온다. a · b = a1 * b1 + a2 * b2 + a3 * b3 a = [2, 5, 6] b = [4, 3, 2] a · b = 2*4 + 5*3 + 6*2 a · b = 8 + 15 + 12 a · b = 35 어떻게 벡터의 내적을 찾는가? 엑셀에서 제공하는 SUMPRODUCT() 함수를 사용한다. SUMPRODUCT(array1, [array2], ...) a = [2, 5,..

엑셀에서 생존 곡선(Survival Curve) 구하기

생존 곡선(survival curve)은 특정 이벤트 후에 생존의 유무를 파악하는 걸 분석해놓은 도표다. 생존 곡선(survival curve) 만들기 Column A: 의료 처방 Column B: 생존수 생존 곡선(survival curve)을 하기에 적합한 데이터 포맷으로 만드는 작업이 필요하다. 데이터 포맷하기 1단계: Column A에 있는 모든 의료 처방 사례를 Column D로 옮긴다. 참조: 시작할 때 '0'을 첨가 2단계: 아래에 함수대로 E에H까지 열(column)을 만든다. E3: =COUNTIFS($A$2:$A$16,D3,$B$2:$B$16,1) F2: =COUNTIF($A$2:$A$16, “>”&D2-1) G3: =1-(E3/F3) H2: =1 H3: =H2*G3 생존 곡선(Surv..

엑셀에서 분할표(contingency table)만들기

분할표(contingency table)는 두 분류의 변수들에 관계를 요약해주는 테이블이다. 피벗 테이블 기능을 이용하면 쉽게 분할표(contingency table)를 만들 수 있다. 예시 아래의 예시표를 보자 1단계: 피벗테이블 클릭 데이터 범위 A1:C21 피벗테이블 표시장소: E2 확인을 누린다. 2단계: 이제 테이블을 채운다. Product는 행(Rows) Country는 열(Columns) Order Number는 값(Values)로 세팅한다. "합계 : Order Number"로 표시되면 Order Number 피벗 설정에서 개수(count)로 바꿔라. 결과는 이렇다. 3단계: 해석하기 행(raw) A 국가에서 총 4개 주문 B국가에서 총 8개 주문 C 국가에서 총 8개 주문 열(column..

엑셀에서 도수분포(frequency distribution)구하기

도수분포(frequency distribution)는 설정된 인터벌(Interval) 안에 데이터 값들이 얼마나 분포해있는지 나타낸다. 도수분포(frequency distribution)는 데이터에 데이터값들이 어떻게 분포하고 있는지 보여준다. 엑셀에서 도수분포(frequency distribution)을 구하기는 아래에 함수를 이용하면 쉽게 구할 수 있다. =FREQUENCY(data_array, bins_array) data_array: 데이터 범위 bins_array: 데이터 인터벌(interval) 아래 예시를 보자 예시: 엑셀에서 도수분포(frequency distribution) 20개의 데이터 셋에서 10단위로 bin을 설정한다. 그리고 =FREQUENCY()함수를 사용한다. =FREQUEN..

엑셀에서 공분산표(covariance matrix) 구하기

공분산(covariance) 하나의 변수(variable)에 또 다른 변수(variable)가 어떻게 변화하는지 상관관계를 보여주는 지표다. 구체적으로 두 변수간 선형적 관계 정도를 보여준다. COV(X, Y) = Σ(x-μ)(y-γ) / n 위의 공식으로 x와 y사이에 공분산(covariance)를 구할 수 있다. 공분산은 쉽고, 유용하게 두 변수간 선형적 관계 정도를 알 수 있게 해 준다. 공분산 표(covariance matrix)를 구해보기 아래와 같이 3개의 과목에서 10명의 학생에 성적이 있다. 엑셀 항목에서 데이터 > 데이터 분석 > 공분산 분석 입력 범위에 분석할 데이터 범위를 입력한다. 첫째 행 이름표 사용 박스에 체크표시를 한다. 이는 첫 번째 1x1을 라벨 값으로 사용하겠다는 표시다...

엑셀에서 평균표준오차(standard error of the mean) 구하기

평균 표준오차(standard error of the mean)는 데이터가 얼마나 퍼져있나를 알려주는 데이터 지표다. standard error= s / √n s: 표본 표준편차 n: 표본 크기 Excel에 내장된 함수들을 조합해서 평균 표준오차(standard error of the mean)를 구할 수 있다. =STDEV(range) / SQRT(COUNT(range)) 표준오차 2.0014로 구할 수 있다. 여기에 3개의 함수가 쓰였다. =STEDV(): 표본의 표준편차를 구했다. =STEDV.S()와 동일하다. 고로, =STDEV.S($A$2:$A$21)/SQRT(COUNT($A$2:$A$21)) 로 해도 결과는 동일하다. 표준오차(Standard Error of the Mean)을 어떻게 해석할..

엑셀에서 왜도(Skewness)구하기

왜도(skewness)는 데이터 분포에 비대칭 정도를 보여주는 수치다. 값은 +또는-일 수 있다. 왜도(skewness)로 분포 모형을 유추하는데 도움이 된다. 왜도(skewness)의 -값은 꼬리가 왼쪽에 꼬리 넓이가 더 크다. 왜도(skewness)의 +값은 꼬리가 왼쪽에 꼬리 넓이가 더 크다. 왜도(skewness)의 0 값은 꼬리가 기울어짐 없이 평균값(mean)에 대칭이다. 구하는 법 =SKEW(array) 함수가 엑셀에 있다. 이 함수는 SKEWNESS = [n/(n-1)(n-2)] * Σ[(xi–x)/s]3 n = 표본 크기 Σ = 합 xi = i번째 데이터의 값 x = 평균 s = 표준편차 엑셀에서 위의 복잡한 식을 함수 하나로 간단하게 계산해준다. 예제 위의 표에서 왜도(skewness)..

엑셀에서 변동계수(CV, coefficient of variation) 구하기

변동 계수(CV, coefficient of variation)는 데이터의 퍼짐 정도와 데이터의 평균값에 관계를 나타낸다. CV= σ/μ σ = 표준편차(standard deviation) μ = 평균(mean) 위의 식에서 보면 변동 계수(CV, coffiecient of variation)는 수학 기호로 단순히 표준편차/평균값이다. 어디에 쓰이는가? 변동 계수(CV, coefficient of variation)는 두 데이터 간에 비교하는 데 사용된다. 이를테면 두 기대수익률 데이터에서 평균과 표준편차의 관계로 두 기대수익률을 비교하여 리스크 판단과 손절각을 결정하는 도구로 사용된다. A 펀드: 평균 7%, 표준편차= 12.4% B 펀드: 평균 5%, 표준편차 = 8.2% A펀드 CV: 12.4/7 ..

엑셀에서 중간범위(midrange)구하기

중간범위는=(제일 큰 값 +제일 작은 값)/2로 구한다 데이터에서 가장 큰 값과 가장 작은 값의 평균이다. 그리고 데이터의 중심이 어디에 위치해 있는지 알려준다. 이렇게 하면 중간값(midrange)은 24.5가 나온다. 중간범위(midrange) 단점 중간범위(midrange)는 outlier 값에 취약하다. 만약 위의 데이터 120이 포함되면 중간범위(midrange)는 60으로 데이터의 중심과 크게 떨어져 있다. 중간범위(midrange) 대안 중간범위(midrange)는 데이터에 중앙(center)을 구하는데 자주 사용되지 않는다. 그 이유는 outlier에 취약하지 않은 좋은 수단들이 많기 때문이다. 대표적으로 평균값(mean), 그리고 중앙값(median)이다. 이렇게 하면 중간범위(midra..

엑셀에서 IQR(Interquartile Range)구하기 in Excel

interquartile range(IQR)을 엑셀에서 구해보자. IQR(interquartile range)는 데이터에서 50% 구간에서 데이터가 '퍼져나간 정도'를 말해준다. IQR(interquartile range)는 Q3-Q1로 구해진다. IQR 숫자 자체로 특정한 의미를 가지지 않고, 크냐 작냐의 정도로 중앙값(median)에서 얼마나 데이터가 퍼져있는지를 알아볼 수 있는 척도(measure)이다. *Quartile은 데이터를 4개(Quarter)로 나눈 것이다. [58, 66, 71, 73, 74, 77, 78, 82, 84, 85, 88, 88, 88, 90, 90, 92, 92, 94, 96, 98] 위의 데이터에서 Q3는 91이고 Q1는 75.5다. 그래서 IQR는 91 - 75.5 =..