์๊ด๊ด๊ณ
๋ ๊ฐ ๊ทธ๋ฃน๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๋ถ์ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค.
1. Pearson
2. Spearman
3. Kendall
ํฌ๊ฒ ์ด๋ฌํ ๋ฐฉ๋ฒ์ด ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์๊ณ , ์ค์ต์ผ๋ก ํผ์ด์จ, ์คํผ์ด๋ง ์๊ด๊ณ์ ๋ถ์์ ํด๋ณด๋ ค๊ณ ํฉ๋๋ค!
* ์๊ด๊ด๊ณ๊ฐ ๋ฐ๋์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ปํ๋ ๊ฒ์ ์๋๋ค. ์๊ด๊ด๊ณ๊ฐ ์กด์ฌํ๋๋ผ๋ ์๋ฌด๋ฐ ์ธ๊ณผ๊ด๊ณ๊ฐ ์์ ์๋ ์๊ธฐ ๋๋ฌธ์ ํด์์ ์ฃผ์ํด์ผํ๋ค..!
Pearson correlation(ํผ์ด์จ ์๊ด๊ณ์)
๋ ๋ณ์ ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๊ตฌํ ๋ ๊ฐ์ฅ ๋ง์ด ํ์ฉ๋๋ ๊ณต์์ด๋ค.
ํด๋น ์๊ด๊ณ์๋ ๋ ๋ณ์๊ฐ ์ ํ์ ์ธ ๊ด๊ณ๊ฐ ์๋์ง ํ๋จํ๋๋ฐ ์ฌ์ฉ๋๋ค.
ํผ์ด์จ ์๊ด๊ณ์๊ฐ 0์ ๊ฐ๊น์ด ์์น๋ฅผ ๋ณด์ด๋๋ผ๋ ์ ํ์ ์ธ ๊ด๊ณ๊ฐ ๋ฎ๋ค๋ ๊ฒ์ผ ๋ฟ ๋น์ ํ์ ์ธ ๊ด๊ณ๋ก ์ ์๋ฏธํ ๊ด๋ จ์ด ์์ ์๋ ์๋ค.
์์น๋ -1~1์ ๊ฐ์ ๊ฐ์ง๋ฉฐ -1์ ๊ฐ๊น์ธ ์๋ก ๋ ๋ณ์๋ ์์ ์ ํ์ ์ธ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๋ฉฐ 1์ ๊ฐ๊น์ธ ์๋ก ๋ ๋ณ์๋ ์์ ์ ํ์ ์ธ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๋ค.
H0 : ์๊ด๊ณ์๋ 0์ด๋ค.
H1 : ์๊ด๊ณ์๋ 0์ด ์๋๋ค.
Spearman correlation(์คํผ์ด๋ง ์๊ด๊ณ์)
์คํผ์ด๋ง ์๊ด๊ณ์๋ ๊ธฐ๋ณธ์ ์ผ๋ก ํผ์ด์จ ์๊ด๊ณ์์ ๊ฐ์ ์๋ฆฌ๋ก ์ฐ์ถ๋๋ค. ํผ์ด์จ ์๊ด๊ณ์๋ ์ ๋ฐ์ดํฐ ์์น๊ฐ์ ๊ทธ๋๋ก ํ์ฉํ๋ ๋ฐ๋ฉด, ์คํผ์ด๋ง ์๊ด๊ณ์๋ ๋ฐ์ดํฐ์ ์์ํต๊ณ๋ ๊ฐ์ ํ์ฉํ์ฌ ์์๊ฐ์ ํผ์ด์จ ์๊ด๊ณ์๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
์ค์ต
1. ํจํค์ง ์ํฌํธ
from scipy.stats import pearsonr
from scipy.stats import spearmanr
2. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
from sklearn.datasets import load_iris
import pandas as pd
iris=load_iris()
iris_dataframe=pd.DataFrame(iris.data, columns=iris.feature_names)
3. ์๊ด๊ด๊ณ
print(pearsonr(iris_dataframe['sepal width (cm)'], iris_dataframe['petal width (cm)']))
print(spearmanr(iris_dataframe['sepal width (cm)'], iris_dataframe['petal width (cm)']))
์๊ด๊ด๊ณ ๋ฐ p-value ๊ฐ์ ๋ํ๋ด๊ณ ์์ต๋๋ค.
-ํผ์ด์จ
์๊ด๊ด๊ณ : -0.35, p-value : 0.00
=> ์ฝํ ์์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๋ฉฐ p-value๊ฐ 0.05๋ณด๋ค ์๊ธฐ ๋๋ฌธ์ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ์ฌ ์๊ด๊ณ์๊ฐ 0์ ์๋๋ค๋ผ๋ ๋๋ฆฝ๊ฐ์ค์ด ์ฑํ๋๋ค.
-์คํผ์ด๋ง
์๊ด๊ด๊ณ : -0.29, p-value : 0.0
'๐ ๋ฐ์ดํฐ ๋ถ์ > 04. Data Analysis' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํต๊ณ์ ๋ชจ๋ธ๋ง] ์ ํํ๊ท, ๋ก์ง์คํฑํ๊ท (0) | 2022.03.18 |
---|---|
[Python] ์ผ์ ๋ถ์ฐ ๋ถ์(ANOVA) (0) | 2022.03.17 |
[Python] ๋ฑ๋ถ์ฐ ๊ฒ์ (0) | 2022.03.16 |
[Python] ๊ธฐ์ดํต๊ณ : ๋ถํฌ์ ๋ฐ๋ผ ํจ์ ๊ทธ๋ฆฌ๊ธฐ (0) | 2022.03.15 |
[Python] t-test (0) | 2022.03.15 |