카이제곱 검정(Chi-Squared Test)
카이제곱검정은 범주형 자료 간 차이를 분석하는 통계 방법으로 분할표에서 빈도를 비교하는 것으로 검정을 수행합니다.
카이제곱 검정은 목적에 따라 다음과 같이 세가지로 분류됩니다.
- 적합도 검정
- 독립성 검정
- 동질성 검정
1. 적합도 검정
범주형 변수에 대해 실제로 관측된 값과 일어날 것으로 기대하고 있는 값을 비교하는 검정이다.
빈도를 확률로 변환했을 때, 변수의 관찰치에 대한 확률분포가 변수의 기대치에 대한 확률분포와 적합한지를 검정하는 것이다..!
H0(귀무가설) : 변수 X의 관측분포와 기대(이론)분포가 동일하다.
H1(대립가설) : 변수 X의 관측분포와 기대(이론)분포가 다르다.
~실습~
검출된 빈도, 예상빈도를 가지고 관측값이 통계적으로 기대값에 유의하게 적합한지 검정
1. 패키지 임포트
from scipy.stats import chisquare
2. 관찰빈도, 기대빈도 생성
x=[50,45,5]
y=[30,60,10]
3. 카이스퀘어 검정
chisquare(x,y)
-> Test statistic=19.58, P-value=0.00이므로 귀무가설을 기각한다. 따라서 변수 X의 관측분포와 기대(이론)분포가 다르다.
2. 독립성 검정 - Pearson의 카이제곱검정
범주형인 두 변수가 서로 연관되어 있는지 여부를 검정한다.
연속형 변수들 사이의 관계를 알아보는 상관분석이 있다면, 범주형 변수에는 독립성 검정이 있다.
H0(귀무가설) : 변수 X와 Y는 연관성이 없음 (독립)
H1(대립가설) : 변수 X와 Y는 연관성이 있음 (독립x)
~실습~
1. 패키지 임포트
from scipy.stats import chi2_contingency
from scipy.stats import chi2
2. 테이블 생성
: 2x3분할표 생성
table = [[10, 20, 30], [6, 9, 17]]
3. 카이제곱 검정
chi2_contingency(table)
Test statistic=10.58, P-value=0.00
Expected table=[[10.43, 18.91, 30.65], [5.57, 10.09, 16.35]]
-> P-value=0.00이므로 귀무가설을 기각하고 두 변수는 연관성이 있다고 판단(독립x)한다.
3. 동질성 검정
서로 다른 집단에 대한 범주형 변수의 분포가 동질인지 검정한다. 동질하다는 것은 확률분포가 같다는 것..!
두 범주형 변수가 서로 독립이 아니어도 분포는 동질이 아닐 수도 있다.
H0(귀무가설) : 두 집단의 확률 분포가 같다.
H1(대립가설) : 두 집단의 확률 분포가 같지 않다.