기초통계 106

엑셀에서 tukey-kramer post hoc 검정(tukey-kramer post hoc Test) 하기

단 방향 ANOVA(one-way ANOVA)는 3개 이상의 독립적인 그룹의 평균 간에 유의미한 차이가 있는지 판별하는 검정 방법이다. 단 방향 ANOVA(one-way ANOVA)에서 사용된 가설은 귀무가설(null hypothesis), H0: μ1= μ2=μ3=...=μk (각각 그룹에 평균은 같다.)이다. 대립 가설(alternative hypothesis), Ha: 적어도 하나의 평균의 값이 다르다, 이다. ANOVA에서 구해진 p-value가 유의 수준(siginificance level)보다 작으면, 귀무가설(null hypothesis)을 기각할 수 있다. 그리고, 적어도 하나의 평균이 다르다고 볼 수 있는 충분한 통계적 근거가 있다고 말할 수 있다. 그러나, ANOVA로 어느 그룹에 평균..

엑셀에서 결정계수(coefficient of determination) R² 구하기

결정계수(coefficeint of determination)는 R²로 표기되면서 주로 선형 회귀 모델(Linear regression model)이 선형으로 잘 피팅되었는지 나타내는 지표다. 결정계수(coefficeint of determination)의 기술적 의의(意義)는 예측 변수(predictor variable)로 설명할 수 있는 반응 변수(response variable)의 분산(variance)이다. R²의 범위는 0에서 1이다. R²가 0일 때는 어떠한 반응 변수(reponse variable)도 예측 변수(predictor variable)로 설명되지 않는다. R²가 1일 때는 모든 반응 변수(reponse variable)가 예측 변수(predictor variable)로 설명된다. ..

엑셀에서 Q-Q플롯(Q-Q Plot) 그리기

Q-Q플롯(Q-Q Plot)은 'quantile-quantile plot'을 의미한다. Q-Q플롯(Q-Q Plot)은 선택된 데이터가 이론적인 분포를 하고 있는지 파악할 때 쓰인다. 여기서 '이론적인 분포'란 정규분포(normal distribution)를 의미한다. 이번 포스팅에서는 Q-Q플롯(Q-Q Plot)을 만들어본다. 예시: 엑셀에서 Q-Q플롯(Q-Q Plot) 만들기 아래의 단계별로 Q-Q플롯(Q-Q Plot)을 그려본다. 1단계: 데이터 입력 우선 데이터를 오름차순으로 정리를 해야 한다. 위에 데이터는 오름차순으로 정리가 돼있다. 오름차순 정리를 하기 위해서 데이터 > 필터 > 오름차순으로 정렬한다. 2단계: 각 데이터에 순위를 찾는다. 엑셀에서 랭크 함수를 사용해서 데이터별 순위를 찾아낸다..

엑셀에서 Breusch-Pagan 검정(Breusch-Pagan Test) 하기

Breusch-Pagan 검정(Breusch-Pagan Test)은 회귀분석에서 이분산성(heteroscendasticity)을 확인할 때 사용한다. 이번 포스팅에서 Breusch-Pagan 검정(Breusch-Pagan Test)을 시행해본다. 예시: 엑셀에서 Breusch-Pagan 검정(Breusch-Pagan Test)하기 10명의 농구 선수에 기록이 담긴 데이터가 있다. 다중 회귀분석(multiple linear regression)을 '평가점수(y)'에 대해서, '득점(x1), 도움(x2), 리바운드(x3)'로 한다. 그리고 Breusch-Pagan 검정(Breusch-Pagan Test)을 해서 이분산성(heteroscendasticity)을 확인한다. 1단계: 다중 회귀분석(multiple..

엑셀에서 회귀분석 표준오차(Standard Error of Regression) 구하기

선형 회귀 모델을 피팅하면 항상. 아래와 같은 식이 나온다. Y = β0 + β1X + … + βiX + ϵ 'ϵ'은 오차항이며 X값에 대해 독립적이다. 그러므로, X가 아무리 정교하게 Y를 예측하더라도 항상 우연오차(random error)가 존재하기 때문에 오차항 'ϵ'가 존재한다. 우연오차(random error)에 대한 오차와 피팅에서 나타나는 오차의 분산(dispersion)을 파악하는 방법으로 회귀분석 표준오차(Standard Error of Regression)를 사용한다. 회귀분석 표준오차(Standard Error of Regression)는 잔차(residual)의 표준편차를 측정한다. 이번 포스팅에선 단계별로 회귀분석 표준오차(Standard Error of Regression)를 구..

엑셀에서 분산팽창계수(VIF) 구하기

회귀분석에서 두 개 이상의 원인 변수(explanatory variables)가 있을 때, 서로의 원인 변수(explanatory variables)가 서로 가깝게 관계되어있는 정도를 다중 공산성(Multicollinearity)이라고 한다. 다중 공산성(Multicollinearity)이 발생하면 결과(y-값)에 주요하게 영향을 미치는 원인 변수(explanatory variable)를 선정하기 어려운 문제가 발생한다. 그래서 회귀분석을 할 때 문제가 생긴다. 두 개 이상의 원인 변수(explanatory variables)에 다중 공산성(Multicollinearity)을 판별하는 방법이 필요하다. 그때 사용하는 방법 분산 팽창 계수(VIF)이다. 분산 팽창 계수(VIF)는 두 변수 간에 상관성(co..

엑셀에서 표준화 잔차(Standardized Residuals) 구하기

잔차(residual)는 관측값과 회귀모델에서 구해진 예측값 사이에 차이 값이다. 잔차(residual) = 관측값(observed value) - 예측값(Predicted value) '관측값'과 '회귀분석 모델에서 피팅된 값'의 같은 x축에서 세로간격이 잔차(residual)이다. 표준화 잔차(Standardized Residuals)를 이용해서 잔차(residual)중에 이상치(outlier)가 있는지 판별할 수 있다. ri = ei / s(ei) = ei / RSE√1-hii ei: i번째 잔차(residual) RSE: 회귀분석 모델에서 잔차의 표준편차(Residual Standard Error) hii: 관측값에 레버리지 이번 예시에서는 표준화 잔차(Standardized Residuals)의..

엑셀에서 잔차도(Residual Plot) 그리기

잔차도(Residual Plot)는 회귀분석 모델에 의해서 구해진 값과, 원래 데이터로 피팅되어 있는 값 사이에 차이값을 그림으로 나타낸다. 이와 같은 그림 분석은 회귀분석 모델이 적합한지 아닌지 판단하기에 좋다. 잔차도(Residual Plot)를 이용하면 heteroscedasticity도 점검해볼 수 있다. heteroscedasticity는 잔차(residual)이나 에러(error)가 불균일하게 변하는 것을 뜻한다. 이렇게 되면 회귀분석에서 구한 방정식의 계수(coefficient)의 분산이 커져서 회귀분석 모델에 신뢰도가 떨어지게 된다. 이번 포스팅에서 엑셀에서 잔차도(Residual Plot)를 그려본다. 엑셀에서 잔차도(Residual Plot) 그리기 단계별로 차례차례 잔차도(Residu..

엑셀에서 예측 구간(Prediction Interval) 구하기

통계에서 선형 회귀분석(simple linear regression)은 변수 x와 y 사이에 관계를 계량화 하는 데 사용한다. 선형 회귀분석(simple linear regression)에서 "최적의 선형 방정식"을 구하게 된다. ŷ = b0 + b1*x ŷ: (선형회귀분석 모델에서) 예측되는 반응 변수(response variable) b0: y-절편 b1: 회귀분석 계수 x: 예측 변수(predictor variable) 값 때때로, 선형회귀분석(simple linear regression)을 통해 얻어진 선형 방정식을 통해 95%의 확률로 실제 모집단에 y값을 추종하는 예측값 'ŷ'의 범위를 구할 수도 있다. 'x'에 예측 구간(Prediction Interval)을 구하는 공식은 아래와 같다. ŷ..

엑셀에서 다항 회귀분석(Polynomial Regression) 하기

회귀분석은 원인 변수(explnatory variable)와 반응 변수(response variable) 간에 값의 관계를 분석하는 데 사용한다. 회귀분석에서 원인 변수(explnatory variable)과 반응 변수(response variable)의 관계는 대부분에 선형(linear)으로 선형 회귀분석(linear regression)으로 분석한다. 하지만 때때로, 비선형(non-linear) 관계일 때가 있다. 이때는 다항 회귀분석(Polynomial Regression)으로 분석할 수 있다. 이번 포스팅에서 단계별로 엑셀에서 다항 회귀분석(Polynomial Regression)을 해본다. 1단계: 데이터 생성 첫 번째로 데이터를 입력한다. 2단계: 분산형 그래프를 생성한다. 데이터를 선택하고,..