๐Ÿ” ๋ฐ์ดํ„ฐ ๋ถ„์„/04. Data Analysis

2022.03.19 - [๋ฐ์ดํ„ฐ ๋ถ„์„/04. Data Analysis] - [ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง] ์‹œ๊ณ„์—ด ๋ถ„์„ - ์ •์ƒ์„ฑ(stationary)๊ณผ ์ฐจ๋ถ„ [ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง] ์‹œ๊ณ„์—ด ๋ถ„์„ - ์ •์ƒ์„ฑ(stationary)๊ณผ ์ฐจ๋ถ„ 2022.03.18 - [๋ฐ์ดํ„ฐ ๋ถ„์„/04. Data Analysis] - [ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง] ์‹œ๊ณ„์—ด ๋ถ„์„ [ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง] ์‹œ๊ณ„์—ด ๋ถ„์„ ํ•ญ์ƒ ์‹œ๊ณ„์—ด ๋ถ„์„์€ ์–ด๋ ต๊ณ  ๋ณต์žกํ•˜๋‹ค๋Š” ์ƒ๊ฐ์— ์ฝ”๋“œ๋ฅผ ํ•˜๋‚˜ํ•˜๋‚˜ ์ดํ•ดํ•˜๋ฉด์„œ ์ž‘์„ฑํ•˜๊ธฐ ํž˜๋“ค์—ˆ xod22.tistory.com ์ €๋ฒˆ ๊ธ€์—์„œ๋Š” ์ •์ƒ์„ฑ๊ณผ ์ฐจ๋ถ„์— ๋Œ€ํ•ด์„œ ๊ณต๋ถ€๋ฅผ ํ•ด๋ดค์Šต๋‹ˆ๋‹ค. ์˜ค๋Š˜์€ ์ด์–ด์„œ ์‹œ๊ณ„์—ด ๋ถ„์„์„ ํ• ๋•Œ ๊ฒฐ์ธก๊ฐ’์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ trend(์ถ”์„ธ)๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋ณด๊ธฐ์œ„ํ•œ ๋ฐฉ๋ฒ•์ธ Smoothing์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•ด๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹น! ๊ฒฐ์ธก๊ฐ’ ์ฒ˜๋ฆฌ : ๋•Œ๋กœ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ..
2022.03.18 - [๋ฐ์ดํ„ฐ ๋ถ„์„/04. Data Analysis] - [ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง] ์‹œ๊ณ„์—ด ๋ถ„์„ [ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง] ์‹œ๊ณ„์—ด ๋ถ„์„ ํ•ญ์ƒ ์‹œ๊ณ„์—ด ๋ถ„์„์€ ์–ด๋ ต๊ณ  ๋ณต์žกํ•˜๋‹ค๋Š” ์ƒ๊ฐ์— ์ฝ”๋“œ๋ฅผ ํ•˜๋‚˜ํ•˜๋‚˜ ์ดํ•ดํ•˜๋ฉด์„œ ์ž‘์„ฑํ•˜๊ธฐ ํž˜๋“ค์—ˆ๋Š”๋ฐ ํ•˜๋‚˜ํ•˜๋‚˜ ์ฐพ์•„๋ณด๋ฉด์„œ ๊ณต๋ถ€๋ฅผ ํ•ด๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ž€ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” ์ผ์ •ํ•œ ์‹œ๊ฐ„ xod22.tistory.com ์ €๋ฒˆ ๊ธ€์— ์ด์–ด์„œ ์ •์ƒ์„ฑ๊ณผ ์ฐจ๋ถ„์— ๋Œ€ํ•ด์„œ ๊ณต๋ถ€ํ•ด๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค! ์ •์ƒ์„ฑ(stationary)๊ณผ ๋น„์ •์ƒ์„ฑ(non-stationary) : ์ถ”์„ธ๋‚˜ ๊ณ„์ ˆ์„ฑ์ด ์žˆ๋Š” ์‹œ๊ณ„์—ด์€ ์ •์ƒ์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์‹œ๊ณ„์—ด์ด ์•„๋‹ˆ๋‹ค. ์ถ”์„ธ์™€ ๊ณ„์ ˆ์„ฑ์€ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ๊ฐ„์— ์‹œ๊ณ„์—ด์˜ ๊ฐ’์— ์˜ํ–ฅ์„ ์ค„ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ! 1. ํŒจํ‚ค์ง€ ์ž„ํฌํŠธ from statsmodels.tsa.stattools import a..
ํ•ญ์ƒ ์‹œ๊ณ„์—ด ๋ถ„์„์€ ์–ด๋ ต๊ณ  ๋ณต์žกํ•˜๋‹ค๋Š” ์ƒ๊ฐ์— ์ฝ”๋“œ๋ฅผ ํ•˜๋‚˜ํ•˜๋‚˜ ์ดํ•ดํ•˜๋ฉด์„œ ์ž‘์„ฑํ•˜๊ธฐ ํž˜๋“ค์—ˆ๋Š”๋ฐ ํ•˜๋‚˜ํ•˜๋‚˜ ์ฐพ์•„๋ณด๋ฉด์„œ ๊ณต๋ถ€๋ฅผ ํ•ด๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ž€ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” ์ผ์ •ํ•œ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ์œผ๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ๊ธฐ๋ก๋œ ๊ด€์ธก ๋ฐ์ดํ„ฐ๋‹ค. ๊ด€์ธก ์ฃผ๊ธฐ์—๋”ฐ๋ผ, ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์‹œ๊ฐ„๋ณ„, ์ผ๋ณ„, ์ฃผ๋ณ„, ์›”๋ณ„, ๋ถ„๊ธฐ๋ณ„, ๋…„๋„๋ณ„๋กœ ๊ตฌ๋ถ„๋œ๋‹ค. ์‹œ๊ณ„์—ด ๋ถ„์„์„ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„(์˜ˆ์ธก)ํ•˜๊ธฐ ์ „์— ์ˆ˜ํ–‰ํ•˜๋Š” ์ค€๋น„๋‹จ๊ณ„๋‹ค. ์‹œ๊ณ„์—ด ๋ถ„์„์—์„œ๋Š” ๋ฐ์ดํ„ฐ์˜ ๋‚ด์žฌ๋œ ์†์„ฑ์— ๋Œ€ํ•ด ๋‹ค์–‘ํ•œ ๊ฐ๋„๋กœ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”ํ•˜๋‹ค. ์˜๋ฏธ์žˆ๊ณ  ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ํ™•๋ณดํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”ํ•˜๋‹ค. ์‹ค์Šต - ๋ฐ์ดํ„ฐ : ํ˜ธ์ฃผ ๋‹น๋‡จ๋ณ‘ ์น˜๋ฃŒ์•ฝ(anti-diabetic) ์›”๋ณ„ Sales ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ 1. ํŒจํ‚ค์ง€ ์ž„ํฌํŠธ from dateutil.parser imp..
์„ ํ˜•ํšŒ๊ท€ ๊ฐœ์š” 1. ํŒจํ‚ค์ง€ ์ž„ํฌํŠธ import statsmodels.api as sm import statsmodels.formula.api as smf import statsmodels.graphics.api as smg import patsy import matplotlib.pyplot as plt import numpy as np import pandas as pd from scipy import stats 2. ๋ฐ์ดํ„ฐ ์ƒ์„ฑ y=np.array([1,2,3,4,5]) x1=np.array([6,7,8,9,10]) x2=np.array([11,12,13,14,15]) data={"y":y, "x1":x1, "x2":x2} 3. ๋ชจ๋ธ ์ƒ์„ฑ y, X=patsy.dmatrices("y~1+x1+x2+x1:..
๋ถ„์‚ฐ๋ถ„์„(ANOVA) ์ข…์†๋ณ€์ˆ˜(y)๊ฐ€ ์—ฐ์†ํ˜•์ด๊ณ  ๋…๋ฆฝ๋ณ€์ˆ˜(x)๊ฐ€ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์ธ ๊ฒฝ์šฐ, ๋ถ„์‚ฐ๋ถ„์„์€ ๋ฒ”์ฃผ์— ๋”ฐ๋ผ ๋‘ ๊ฐœ ์ด์ƒ์˜ ์ง‘๋‹จ์—์„œ ๊ทธ๋ฃน ํ‰๊ท  ๊ฐ„ ์ฐจ์ด๋ฅผ ๊ทธ๋ฃน ๋‚ด ๋ณ€๋™์— ๋น„๊ตํ•˜์—ฌ ์‚ดํŽด๋ณด๋Š” ํ†ต๊ณ„ ๋ถ„์„ ๋ฐฉ๋ฒ•์ด๋‹ค. ์ฆ‰, ๋‘ ๊ฐœ ์ด์ƒ ์ง‘๋‹จ๋“ค์˜ ํ‰๊ท  ๊ฐ„ ์ฐจ์ด์— ๋Œ€ํ•œ ํ†ต๊ณ„์  ์œ ์˜์„ฑ์„ ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋…๋ฆฝ๋ณ€์ˆ˜(x)์˜ ๊ฐœ์ˆ˜์— ๋”ฐ๋ผ ์ผ์›๋ฐฐ์น˜ ๋ถ„์‚ฐ๋ถ„์„, ์ด์›๋ฐฐ์น˜ ๋ถ„์‚ฐ๋ถ„์„, ๋‹ค์›๋ฐฐ์น˜ ๋ถ„์‚ฐ๋ถ„์„์œผ๋กœ ๋‚˜๋ˆ„์–ด์ง€๋ฉฐ, ๋ถ„์„์—๋Š” F-๊ฒ€์ • ํ†ต๊ณ„๋Ÿ‰์„ ์ด์šฉํ•œ๋‹ค. ์‹ค์Šต 1. ํŒจํ‚ค์ง€ ์ž„ํฌํŠธ from scipy.stats import f_oneway 2. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ from sklearn.datasets import load_iris import pandas as pd iris=load_iris() iris_dataframe=pd.Dat..
์ƒ๊ด€๊ด€๊ณ„ ๋‘ ๊ฐœ ๊ทธ๋ฃน๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค. 1. Pearson 2. Spearman 3. Kendall ํฌ๊ฒŒ ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์ด ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๊ณ , ์‹ค์Šต์œผ๋กœ ํ”ผ์–ด์Šจ, ์Šคํ”ผ์–ด๋งŒ ์ƒ๊ด€๊ณ„์ˆ˜ ๋ถ„์„์„ ํ•ด๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค! * ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋ฐ˜๋“œ์‹œ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ๋œปํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์กด์žฌํ•˜๋”๋ผ๋„ ์•„๋ฌด๋Ÿฐ ์ธ๊ณผ๊ด€๊ณ„๊ฐ€ ์—†์„ ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ํ•ด์„์— ์ฃผ์˜ํ•ด์•ผํ•œ๋‹ค..! Pearson correlation(ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜) ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ตฌํ•  ๋•Œ ๊ฐ€์žฅ ๋งŽ์ด ํ™œ์šฉ๋˜๋Š” ๊ณต์‹์ด๋‹ค. ํ•ด๋‹น ์ƒ๊ด€๊ณ„์ˆ˜๋Š” ๋‘ ๋ณ€์ˆ˜๊ฐ„ ์„ ํ˜•์ ์ธ ๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€ ํŒ๋‹จํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋œ๋‹ค. ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ 0์— ๊ฐ€๊นŒ์šด ์ˆ˜์น˜๋ฅผ ๋ณด์ด๋”๋ผ๋„ ์„ ํ˜•์ ์ธ ๊ด€๊ณ„๊ฐ€ ๋‚ฎ๋‹ค๋Š” ๊ฒƒ์ผ ๋ฟ ๋น„์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋กœ ์œ ์˜๋ฏธํ•œ ๊ด€๋ จ์ด ์žˆ์„ ์ˆ˜๋„ ์žˆ๋‹ค. ์ˆ˜์น˜๋Š” -1~1์˜ ๊ฐ’์„ ..
๋“ฑ๋ถ„์‚ฐ ๊ฒ€์ • : ๋“ฑ๋ถ„์‚ฐ ๊ฒ€์ •์€ '๋ถ„์‚ฐ์˜ ๋™์งˆ์„ฑ ๊ฒ€์ •'์ด๋ผ๊ณ ๋„ ํ•œ๋‹ค. ๋Œ€์ƒ ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์ด ๊ฐ™์€์ง€ ๋‹ค๋ฅธ์ง€๋ฅผ ํ†ต๊ณ„์ ์œผ๋กœ ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. * ๋ถ„์‚ฐ์ด ๊ฐ™์ง€ ์•Š์œผ๋ฉด anova๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ์„ ํ–‰๋˜์–ด์•ผํ•˜๋Š” ๋ถ„์„์ด๋‹น..! H0(๊ท€๋ฌด๊ฐ€์„ค) : ๋ชจ๋“  ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์€ ์ฐจ์ด๊ฐ€ ์—†๋‹ค. H1(๋Œ€๋ฆฝ๊ฐ€์„ค) : ์ ์–ด๋„ ํ•˜๋‚˜ ์ด์ƒ์˜ ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์— ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. ๋“ฑ๋ถ„์‚ฐ ๊ฒ€์ •์„ ์ˆ˜ํ–‰ํ•˜๋Š” ํ•จ์ˆ˜๋Š” ๋‹ค์Œ ๋‘๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค. -Bartlett.test -levene.test -> ๋‘๊ฐ€์ง€ ๋‹ค ๋ถ„์‚ฐ์˜ ๋™์งˆ์„ฑ์„ ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์ง€๋งŒ Levene ๊ฒ€์ •๊ณผ ๋‹ฌ๋ฆฌ Bartlett ๊ฒ€์ •์€ ํ‘œ๋ณธ์ด ์ •๊ทœ์„ฑ์„ ๋งŒ์กฑํ•  ๋•Œ(์ฆ‰ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋จ ๋•Œ)์—๋งŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. Levene ๊ฒ€์ •์€ ํ‘œ๋ณธ์ด ์ •๊ทœ์„ฑ์„ ๋งŒ์กฑํ•˜๋“  ๋งŒ์กฑํ•˜์ง€ ์•Š๋“  ์ƒ๊ด€์—†์ด ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค..
์ •๊ทœ๋ถ„ํฌ, F๋ถ„ํฌ, ํฌ์•„์†ก ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ ค๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค! ์ •๊ทœ๋ถ„ํฌ 1. ํŒจํ‚ค์ง€ ์ž„ํฌํŠธ import scipy as sp import seaborn as sns import numpy as np import matplotlib as mpl import matplotlib.pylab as plt %matplotlib inline 2. ์ •๊ทœ๋ถ„ํฌ ๊ฐ์ฒด ์ƒ์„ฑ X=sp.stats.norm() 3. plotํ•  ๊ณต๊ฐ„ ๋งˆ๋ จ fig, axes=plt.subplots(1, 3, figsize=(12,3)) x_min_999, x_max_999=X.interval(0.999) x999=np.linspace(x_min_999, x_max_999, 1000) 4. plotํ•˜๊ธฐ #PDF : ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜ axes[0].plot(x9..
xod22
'๐Ÿ” ๋ฐ์ดํ„ฐ ๋ถ„์„/04. Data Analysis' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก (2 Page)