๐Ÿ” ๋ฐ์ดํ„ฐ ๋ถ„์„/04. Data Analysis

[Python] ์ผ์› ๋ถ„์‚ฐ ๋ถ„์„(ANOVA)

xod22 2022. 3. 17. 15:06
728x90
๋ถ„์‚ฐ๋ถ„์„(ANOVA)

 

์ข…์†๋ณ€์ˆ˜(y)๊ฐ€ ์—ฐ์†ํ˜•์ด๊ณ  ๋…๋ฆฝ๋ณ€์ˆ˜(x)๊ฐ€ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์ธ ๊ฒฝ์šฐ, ๋ถ„์‚ฐ๋ถ„์„์€ ๋ฒ”์ฃผ์— ๋”ฐ๋ผ ๋‘ ๊ฐœ ์ด์ƒ์˜ ์ง‘๋‹จ์—์„œ ๊ทธ๋ฃน ํ‰๊ท  ๊ฐ„ ์ฐจ์ด๋ฅผ ๊ทธ๋ฃน ๋‚ด ๋ณ€๋™์— ๋น„๊ตํ•˜์—ฌ ์‚ดํŽด๋ณด๋Š” ํ†ต๊ณ„ ๋ถ„์„ ๋ฐฉ๋ฒ•์ด๋‹ค.

 

์ฆ‰, ๋‘ ๊ฐœ ์ด์ƒ ์ง‘๋‹จ๋“ค์˜ ํ‰๊ท  ๊ฐ„ ์ฐจ์ด์— ๋Œ€ํ•œ ํ†ต๊ณ„์  ์œ ์˜์„ฑ์„ ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

 

๋…๋ฆฝ๋ณ€์ˆ˜(x)์˜ ๊ฐœ์ˆ˜์— ๋”ฐ๋ผ ์ผ์›๋ฐฐ์น˜ ๋ถ„์‚ฐ๋ถ„์„, ์ด์›๋ฐฐ์น˜ ๋ถ„์‚ฐ๋ถ„์„, ๋‹ค์›๋ฐฐ์น˜ ๋ถ„์‚ฐ๋ถ„์„์œผ๋กœ ๋‚˜๋ˆ„์–ด์ง€๋ฉฐ, ๋ถ„์„์—๋Š” F-๊ฒ€์ • ํ†ต๊ณ„๋Ÿ‰์„ ์ด์šฉํ•œ๋‹ค.

 

์‹ค์Šต

 

1. ํŒจํ‚ค์ง€ ์ž„ํฌํŠธ

from scipy.stats import f_oneway

 

2. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ

from sklearn.datasets import load_iris
import pandas as pd
iris=load_iris()
iris_dataframe=pd.DataFrame(iris.data, columns=iris.feature_names)

 

3. ANOVA ๋ถ„์„

 

๊ท€๋ฌด๊ฐ€์„ค(H0) : 3๊ฐœ ์ด์ƒ ๋ชจ์ง‘๋‹จ ํ‰๊ท ์ด ๋™์ผํ•˜๋‹ค
๋Œ€๋ฆฝ๊ฐ€์„ค(H1) : 1๊ฐœ ์ด์ƒ ํ‰๊ท ์ด ์„œ๋กœ ๋‹ค๋ฅด๋‹ค

f_oneway(iris_dataframe['sepal width (cm)'], iris_dataframe['sepal length (cm)'], iris_dataframe['petal width (cm)'], iris_dataframe['petal length (cm)'])

p-value๊ฐ€ 0์ด๋ฏ€๋กœ ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•œ๋‹ค. ์ฆ‰ ํ•œ๊ฐœ ์ด์ƒ์˜ ํ‰๊ท ์ด ์„œ๋กœ ๋‹ค๋ฅด๋‹ค!

728x90