전체 글 149

[기본 함수] 두 개의 데이터프레임 쌓기

두 개 이상의 pandas DataFrame을 겹치고 싶을 때 concat() 함수로 쉽게 할 수 있다. 이번 페이지에서 cocnat() 여러 가지 활용 예시를 본다 예시 1: 두 개의 pandas DataFrame 쌓기 예시 2: 세 개의 Panda DataFrame 쌓기 ignore_index=True 의미 pd.concat([df1, df2, df3,..], ignore_index =True) 하지 않으면 이전 데이터에 있던 인덱스(index)를 그대로 가져온다. 그렇기 때문에 특별하게 인덱스를 유지해야 하는 경우가 아니라면 'ignore_index = True' 옵션을 추가한다.

엑셀에서 중심극한정리(Central Limit Theorem) 구하기

중심 극한 정리(Central Limit Theorem)는 표본의 크기(n)이 충분히 크다면 표본의 분포가 정규화(normalization)된다는 가정이다. 심지어 모집단(population)이 정규분포(normal distribution)를 취하지 않더라도, 채취한 표본은 정규화(normalization) 된다. 중심 극한 정리(central limit theorem)는 또한 이와 같은 뜻을 가진다. 1. 표본의 평균은 모집단의 평균과 같다. x = μ 2. 표본의 표준편차는 모집단의 표준편차에 표본의 크기로 나눈 값과 같다. s = σ / √n 어떻게 엑셀에서 구하는지 알아본다. 중심 극한 정리(central limit theorem) 엑셀에서 구하기 어느 모집단 평균8, 표준편차 4를 가진다. 여기..

엑셀에서 STDEV.P 와 STDEV.S의 차이점

엑셀에서 표준편차(standard deviation)를 구하는 여러 가지 함수를 소개한다. 1.STDEV.P 모집단의 표준편차를 계산한다. 데이터 범위가 전체 모집단으로 할 때 사용한다. √Σ (xi – μ)^2 / N Σ: 합계 xi: i번째 데이터 값 μ: 모집단 평균 N: 관찰 개수(전체 데이터 크기) 2. STDEV.S 표본집단의 표준편차를 계산한다. 데이터 범위가 전체 모집단에서 채취한 표본집단일 때 사용한다. √Σ (xi – x)^2 / (n-1) Σ: 합계 xi: i번째 데이터 값 x: 표본 평균 n: 관찰 개수(전체 데이터 크기) 3.STDEV 표본집단의 표준편차를 계산한다. STEDV.S와 똑같은 값을 반환한다. Note 표본의 표준편차에서 N 대신 n-1을 사용한다. 표본의 크기는 항상..

3. 열역학, scipy로 적분 하기

1. 적분하기 예시 1 quad(적분 함수(), start, end, 적분함수 인자) quad 함수는 값과, 오차값을 배열(array)로 반환한다. 1.6667은 적분 값, 1.85e-14는 오차값 예시 2 예시 3 가우스 함수(종 함수) 구하기 a 값은 종 함수의 width로 크기가 클수록 넓어지고, 크기가 작으면 좁아진다. 2. PV-그래프(PV-diagram) PV-그래프를 그린다. 아래에 면적은 일(work)이다. PV = W [J] 2.1 등온 과정(isothermal process) 2.1.1. 적분해서 면적(일)을 구한다. 부피 10~40 사이에 등온(isothermal) 팽창한 기체의 200,300,400K에서 시스템 밖으로 한 일을 구한다. 2.1.2. 열역학 1법칙으로 열(heat)를 ..

엑셀에서 합동 분산(Pooled Variance)구하기

합동 분산(pooled variance)은 두 개 이상의 데이터 표본(sample)의 분산에 평균을 한 통계 지표다. 합동 분산(pooled variance)은 두 개 이상의 데이터 표본(sample)의 분산(variance)을 통합해서 공용 하나의 분산(variance)를 의미한다. 합동 분산(pooled variance)은 두 표본(two samples)에 대한, t-test를 할 때 가장 많이 사용된다. (t-test는 표본의 평균이 같은지 아닌지 측정하는 테스트) 합동 분산(pooled variance)는 sp^2 기호로 사용된다. sp^2 = ( (n₁-1)s₁^2 + (n₂-1) s₂^2 ) / (n₁+n₂-2) 어떻게 구하는지 살펴본다. 1단계: 데이터 생성 2단계: 표본크기(sample s..

Excel_데이터 2021.03.24

엑셀에서 가중 표준 편차(Weighted Standard Deviation)구하기

가중 표준편차(weighted standard deviation)는 일부 데이터에 더 가중을 둬서 데이터의 분산(dispersion)을 구하는 방법이다. 가중 표준편차(weighted standard deviation)를 구하는 방법은 이렇다. N: 전체 관찰값의 크기 M: 가중치가 0이 아닌 가중치 수 wi: i번째 관찰값의 가중치 xi: i번째 데이터 값 x: 가중치 평균 가중표준편차(weighted standard deivation)를 단계별로 구해보자 1단계: 데이터 생성 2단계: 가중 평균 계산 =SUMPRODUCT(A2:A11,B2:B11)/SUM(B2:B11) 가중치 평균(Weighted Mean)은 31.147 3단계: 가중 표준편차(Weighed Standard Deviation) 구하기..

엑셀에서 급내상관계수(Interclass Correlation Coefficients, ICC)구하기

각기 다른 계급에서 매겨진 개수가 같이 쓰일 수 있는지 알아보는 통계지표가 급내상관계수(Interclass Correlation Coefficients, ICC)이다. ICC(급내상관계수)는 0에서 1 범위에 값이다. 0은 계급간 상관관계없음, 1은 계급관 완벽하게 상관관계있음 어떻게 구하는지 살펴보자 1단계: 데이터 생성 각각의 시험 10 과목에 대해 4명의 심사자가 점수를 매긴 현황 데이터다. 2단계: ANOVA 분산 분석하기 ANOVA 분산분석을 하기 위해서 데이터> 데이터 분석> 분산분석: 반복 없는 이원 배치법에 들어간다. 그리고 아래에 같이 세팅을 마치고 확인한다. 결과는 이와 같다. 3단계: ICC(급내상관계수)를 구한다. 분산분석을 통해 나온 A행, B열의 자유도와, 제곱 평균, 잔차의 제..

Excel_데이터 2021.03.23

엑셀에서 피어슨 비대칭계수(Pearson's Coefficient of Skewness) 구하기

생물통계학자 Karl Pearson에 의해 고안된 통계지표가 피어슨 비대칭계수(Pearson's Coefficient of Skewness)다. 피어슨 비대칭계수(Pearson's Coefficient of Skewness)는 왜도(Skewness)를 측정하는데 용이하다. 피어슨 비대칭계수(Pearson's Coefficient of Skewness)를 구하는 두 가지 방법이 아래에 있다. 방법 1: 최빈수(mode) 이용하기 왜도(skewnesss) = (평균 - 최빈수)/표본 표준편차 방법 2: 중앙값(median) 이용하기 왜도(skewnesss) = 3*(평균 - 중앙값)/표본 표준편차 방법 1보다 방법 2가 더 많이 사용된다. 최빈수(mode)는 데이터에 중앙(the center of data)..

엑셀에서 데이터 윈저화(Data Winsorization)하기

윈저화(winsorization)은 이상치(outlier)를 처리하는 기법으로 이상치를 특정 백분위수(percentile)에 값으로 치환해버린다. 예를 들어 90% 윈저화(winsorization)을 하게 되면 95 번째 값보다 큰 데이터는 모두 95 번째 데이터로 치환한다. 또는 5 번째 데이터 값보다 낮은 데이터는 모두 5 번째 데이터로 치환한다. 어떻게 하는지 예시를 보자 1단계: 데이터 셋팅 2단계: 5%,95% 백분위수 구하기 PERCENTILE(array, k) 함수를 이용해서 5 째, 95 쨰 백분위수를 구해준다. 5% 백분위수 12.35 95% 백분위수 92.05 3단계: 윈저화(Winsorization) 한다. IF(Condition, True, False) 함수로 크거나 작거나, 조건을..

엑셀에서 통계 확률(probablilty) 구하기

PROB() 함수를 이용해서 엑셀에서 확률을 구할 수 있다. PROB(x_range, prob_range, lower_limit, [upper_limit]) x_range: x의 범위 prob_range: 확률의 범위 lower_limit: 확률을 알고 싶은 최소 범위 upper_limit: 확률을 알고 싶은 최고 범위 사용 예시를 살펴보자 예시 1: 주사위 확률 아래에 주사위 나올 확률표가 있다. 주사위의 각면에 나올 확률이 동일하여 같은 값을 가진다. 여기서 PROB()함수로 4에서 6이 나올 확률을 구해본다. 예시 2: 판매 확률 다음은 회사에서 판매하는 상품이 팔릴 확률이다. 3이나 4가 팔릴 확률을 구해보자