분산분석(ANOVA) 종속변수(y)가 연속형이고 독립변수(x)가 범주형 변수인 경우, 분산분석은 범주에 따라 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 통계 분석 방법이다. 즉, 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검정하는 방법이다. 독립변수(x)의 개수에 따라 일원배치 분산분석, 이원배치 분산분석, 다원배치 분산분석으로 나누어지며, 분석에는 F-검정 통계량을 이용한다. 실습 1. 패키지 임포트 from scipy.stats import f_oneway 2. 데이터 불러오기 from sklearn.datasets import load_iris import pandas as pd iris=load_iris() iris_dataframe=pd.Dat..
상관관계 두 개 그룹간의 상관관계를 분석하기 위한 방법이다. 1. Pearson 2. Spearman 3. Kendall 크게 이러한 방법이 널리 사용되고 있고, 실습으로 피어슨, 스피어만 상관계수 분석을 해보려고 합니다! * 상관관계가 반드시 인과관계를 뜻하는 것은 아니다. 상관관계가 존재하더라도 아무런 인과관계가 없을 수도 있기 때문에 해석에 주의해야한다..! Pearson correlation(피어슨 상관계수) 두 변수 간의 상관관계를 구할 때 가장 많이 활용되는 공식이다. 해당 상관계수는 두 변수간 선형적인 관계가 있는지 판단하는데 사용된다. 피어슨 상관계수가 0에 가까운 수치를 보이더라도 선형적인 관계가 낮다는 것일 뿐 비선형적인 관계로 유의미한 관련이 있을 수도 있다. 수치는 -1~1의 값을 ..
등분산 검정 : 등분산 검정은 '분산의 동질성 검정'이라고도 한다. 대상 집단의 분산이 같은지 다른지를 통계적으로 검정하는 방법이다. * 분산이 같지 않으면 anova분석을 수행할 수 없기 때문에 선행되어야하는 분석이당..! H0(귀무가설) : 모든 집단의 분산은 차이가 없다. H1(대립가설) : 적어도 하나 이상의 집단의 분산에 차이가 있다. 등분산 검정을 수행하는 함수는 다음 두가지가 있다. -Bartlett.test -levene.test -> 두가지 다 분산의 동질성을 검정하는 방법이지만 Levene 검정과 달리 Bartlett 검정은 표본이 정규성을 만족할 때(즉 정규분포를 띨 때)에만 사용할 수 있는 방법이다. Levene 검정은 표본이 정규성을 만족하든 만족하지 않든 상관없이 사용할 수 있다..
카이제곱 검정(Chi-Squared Test) 카이제곱검정은 범주형 자료 간 차이를 분석하는 통계 방법으로 분할표에서 빈도를 비교하는 것으로 검정을 수행합니다. 카이제곱 검정은 목적에 따라 다음과 같이 세가지로 분류됩니다. - 적합도 검정 - 독립성 검정 - 동질성 검정 1. 적합도 검정 범주형 변수에 대해 실제로 관측된 값과 일어날 것으로 기대하고 있는 값을 비교하는 검정이다. 빈도를 확률로 변환했을 때, 변수의 관찰치에 대한 확률분포가 변수의 기대치에 대한 확률분포와 적합한지를 검정하는 것이다..! H0(귀무가설) : 변수 X의 관측분포와 기대(이론)분포가 동일하다. H1(대립가설) : 변수 X의 관측분포와 기대(이론)분포가 다르다. ~실습~ 검출된 빈도, 예상빈도를 가지고 관측값이 통계적으로 기대값..
정규분포, F분포, 포아송 분포 그래프를 그려보겠습니다! 정규분포 1. 패키지 임포트 import scipy as sp import seaborn as sns import numpy as np import matplotlib as mpl import matplotlib.pylab as plt %matplotlib inline 2. 정규분포 객체 생성 X=sp.stats.norm() 3. plot할 공간 마련 fig, axes=plt.subplots(1, 3, figsize=(12,3)) x_min_999, x_max_999=X.interval(0.999) x999=np.linspace(x_min_999, x_max_999, 1000) 4. plot하기 #PDF : 확률밀도함수 axes[0].plot(x9..
모평균에 대한 유의성 검정으로 t-test 검정을 실시한다. 다음과 같이 크게 세가지의 방법이 있다. 1. 단일표본 t-검정(One-sample t-test) 2. 독립표본 t-검정(Independent-tw-sample t-test) 3. 대응표본 t-검정(Paired-two-sample t-test) 단일표본 t-검정 : 관심있는 연속형 변수의 평균값을 특정 기준값과 비교하여 그 차이가 통계적으로 유의한가를 판단하는 방법. p-value가 유의수준(일반적으로 0.05)보다 작으면, 귀무가설 기각 1. 패키지 임포트 from sklearn.datasets import load_iris import pandas as pd import numpy as np from scipy.stats import tte..
2022.03.14 - [데이터 분석/04. Data Analysis] - [Python] EDA(탐색적 데이터분석)를 통한 변수탐색 [Python] EDA(탐색적 데이터분석)를 통한 변수탐색 sklearn에 내장되어있는 iris데이터를 가지고 기본적인 데이터분석을 해보려고 합니다! 1. 패키지 임포트 및 데이터 불러오기 from sklearn.datasets import load_iris import pandas as pd import numpy as np ir.. xod22.tistory.com 저번 글에 이어서 EDA의 Visualization에 대해 공부해보려고 합니다! 데이터 값의 밀도 살펴보기 cols=iris_dataframe.columns[:4] densityplot=iris_datafra..
sklearn에 내장되어있는 iris데이터를 가지고 기본적인 데이터분석을 해보려고 합니다! 1. 패키지 임포트 및 데이터 불러오기 from sklearn.datasets import load_iris import pandas as pd import numpy as np iris=load_iris() iris_dataframe=pd.DataFrame(iris.data, columns=iris.feature_names) # y컬럼 추가 iris_dataframe['group']=pd.Series([iris.target_names[k] for k in iris.target], dtype="category") iris_dataframe 2. 통계량 확인 ~평균값~ numeric_only : int/float 열..