엑셀통계 110

엑셀에서 이상치(Outlier) 빨리 찾기

이상치(outlier)는 비정상적으로 데이터 분포에서 멀리 떨어져 있는 데이터 값이다. 이상치(outlier)는 여러 통계 수치를 계산하는데 영향을 끼쳐 값에 신뢰도를 떨어뜨리거나, 해석에 오류를 범하게 하는 문제를 일으킨다. 위의 데이터에 이상치를 알아보자 방법 1: IQR(Interquartile Range)로 구하기 IQR은 Q3-Q1으로 데이터에서 50%에 값을 지시한다. 만약 Q3에서 IQR의 1.5배 한 값보다 크거나, Q1에서 IQR에 1.5배 아래에 이상치(outlier)로 간주한다. 계산해보면 아래와 같다. 164가 이상치(outlier)로 잡혔다. 방법 2: z-스코어 사용하기 z = (X – μ) / σ X : 데이터 값 μ : 모평균 σ : 모 표준편차 만약 z 값이 -3보다 작고,..

엑셀에서 점이연 상관관계(Point-biserial correlation) 분석

점이연 상관관계(Point-biserial correlation)은 이분변수'x'와 연속변수'y'에 상관관계를 구하는데 사용된다. 피어스 상관계수(Pearson correlation coefficient)와 똑같이 -1~1에 값을 가진다. -1: 두 변수간 음의 상관관계가있다. 0: 두 변수간 상관관계가 없다. +1: 두변수간 양의 상관관계가 있다. 어떻게 만드는지 살펴보자 예시: 점이연 상관관계(Point-Biserial Correlation)을 구해보자 x는 이분변수 y는 연속변수 일단 =CORREL() 함수를 이용한다. 상관계수가 +값이다. 0.218163 이는 x 값이 1일 때 y 값이 0일 때 보다, 더 큰 값을 대체로 나타냄을 알 수 있다. 이를 확인하기 위해서 1일 때 y값과 0일 때 y값의..

엑셀에서 편상관관계(Partial Correlation) 구하기

두 변수 사이에 관계를 파악하기 위해 상관관계(pearson correlation coefficient)를 사용한다. 때때로 세 개의 변수 중에 하나를 제외하고 두 가지에서만 상관계수를 파악하고 싶을 때도 있다. 그때는 편상관관계(partial correlation)를 분석한다. 예를 들어 학생의 성적, 기말고사 성적, 공부 시간의 3개의 변수가 있다. 이중 학생의 성적을 제외하고 기말고사 성적과 공부와의 상관관계를 알아보고 싶다. 이러한 경우, 편상관관계(partial correlation)로 알아본다. 예시: 편상관관계(partial correlation) 구하기 1단계: 데이터를 입력한다. 2단계: 각각 상관분석을 한다. 3단계: 시간과 기말성적 사이에 편상관분석(partial correlation..

엑셀에서 누적도수(cumulative frequency)구하기

도수표(frequency table)는 빈도수에 대한 정보를 제공한다. 얼마나 많큼 그 사건이 일어났는지 말해준다. $1 – $10 20 $11 – $20 21 $21 – $30 13 $31 – $40 8 $41 – $50 4 위의 표는 도수표의 예시다. 도수표에서 누적도수(cumulative frequency)를 구하는 것 역시 가능하다. $1 – $10 20 20 $11 – $20 21 41 $21 – $30 13 54 $31 – $40 8 62 $41 – $50 4 66 두 번째 열이 도수(frequency)열이 계급 구간(class interval) 세 번째 열이 누적도수(cumulative frequency)다. 아래로 가면서 점차 누적해나간다. 20 20+21 = 41 20+21+13 = 54..

엑셀에서 상대도수(Relative Frequency) 구하기

도수표(frequnecy table)는 해당 사건이 얼마나 일어났는지 보여준다. $1 – $10 20 $11 – $20 21 $21 – $30 13 $31 – $40 8 $41 – $50 4 위의 표는 다른 가격들에 상품수를 보여준다. 도수(frequency)를 상대적으로 표현하는 것 역시 가능하다. $1 – $10 20 0.303 $11 – $20 21 0.318 $21 – $30 13 0.197 $31 – $40 8 0.121 $41 – $50 4 0.061 전체 66개의 상품수에서 각각의 도수를 나누면 상대 도수(relative frequency)가 나온다. 예시: 엑셀에서 구하기 확인차원에서 상대 도수를 합읠 다 더해보면 '1'이 나와야 한다. 상대 도수로 히스토그램을 만들 수도 있다. 상대 도수..

엑셀에서 계급폭(class width)구하기

계급폭(class width)는 데이터를 나눌 때 범위로 윗값 - 아랫값으로 정해진다. 위의 데이터는 계급폭(class width)가 4이다. 5-1 =4 10-6 =4 ... 이 경우에는 9이다 10-1 =9 20-11 = 9 ... 어떤 데이터에 계급폭(class width)가 나와있지 않다면 아래 방법으로 구할 수 있다. 계급폭(class width) = (max-min) / n max: 데이터에 최고값 min: 데이터에 최솟값 n: 사용하고자 하는 계급의 갯수 예시: 엑셀에서 계급폭(class width)구하기 위의 데이터에서 5개까지 계급의 폭을 구해보자 계급폭(class width)을 구하면 4.6이 나오는데 이것보다 큰 정수 '5'로 계급폭(class width)를 선정하면된다. 5개 계급폭..

엑셀에서 데이터 정규화(Date Normalization)하기

데이터 정규화(Date Normalization)는 데이터의 평균 0, 표준편차 1로 만드는 작업을 말한다. 예시: 데이터 정규화하기(date normalization) 위에 데이터를 정규화해보자 1단계: 평균(mean) 찾기 =AVERAGE(range) 함수 사용 2단계: 표준편차(standard deviation) 찾기 =STDEV(range) 함수 사용 3단계: 사이즈 정규화(normalizing)하기 마지막으로, =STANDARDIZE(x, mean, standard_deviation) 함수를 사용한다. Note: STANDARDIZE() 함수는 이렇게 작동한다. 정규화 값 = (x – μ) / s x = 데이터 값(value) μ = 평균(mean) s = 표준편차(standard deviati..

엑셀에서 스피어맨 서열상관분석(Spearman Rank Correlation)구하기

통계에서 상관분석(correlation Analysis)이란 두 변수 간에 크기와 방향에 관계를 말해주는 지표로 쓰인다. 상관계수(correlation coefficient)는 -1 ~ 1 사이에 범위다. -1: 두 계수가 반대 관계에 있다. 0: 두 계수에 관계는 없다. 1: 두 계수에 비례 관계에 있다. 대표적인 예시로 스피어맨 랭킹 상관분석(Spearman Rank Correlation)이 있다.(수학, 과학 성적의 상관관계를 살펴본다.) 예시: 스피어맨 랭킹 상관분석(Spearman Rank Correlatin) in Excel 1단계: 데이터 입력 2단계: 순위를 계산한다. 각각의 학생에 수학/과학 성적에 대해 순위를 매긴다. Cell D2: =RANK.AVG(B2, $B$2:$B$11, 0) ..

엑셀에서 베이즈 정리(bayes' Theorem)

베이즈 정리(bayes' theorem) A와 B사건에 대한 아래식으로 표현된다. P(A|B) = P(A)*P(B|A) / P(B) P(A|B): B가 일어났을 때, A가 일어날 확률 P(B|A): A가 일어났을 때, B가 일어날 확률 P(A): A가 일어날 확률 P(B): B가 일어날 확률 예를 들어서, 날이 흐릴 확률 40%, 흐릴 때 비가 올 확률 20%라면, 비가올 때 흐릴 확률은 85%다. P(흐림) = 0.40 P(비) = 0.20 P(흐림 | 비) = 0.85 그렇다면, Q. 흐릴 때 비가올 확률은 얼마인가? P(비| 흐림) = P(비) * P(흐림 | 비) / P(흐림) P(비 | 흐림) = 0.20 * 0.85 / 0.40 P(비 | 흐림) = 0.425 흐릴 때 비가올 확률은 42.5%..

엑셀에서 조건부 확률(Conditional Probability)구하기

조건부 확률(conditional probability)은 B사건이 일어났을 때, A 사건이 일어나는 확률이다. P(A|B) = P(A∩B) / P(B) P(A∩B) = A와B 사건이 동시에 일어날 확률 P(B) = B사건이 일어날 확률 조건부 확률(conditional probability)은 두 개의 조건이 동시에 존재하는 테이블에서 확률을 구하는데 특히 유용하게 사용된다. 첫 번째 조건: 남자-여자 두 번쨰 조건: 야구-농구-축구-게임 두 조건에 대해 각각을 테이블로 작성해 놓았다. 위와 같은 형태에서 조건부 확률(conditional probability)을 유용하게 쓸 수 있다. 어떻게 계산하는가 in Excel Q: "야구를 좋아하면서, 남자 사람일 확률은 얼마인가?" A: P(남/야구) = ..