[์ ์ฒ๋ฆฌ] Types of data processing ๋ฐ ๋ฐ์ดํฐ ํด๋ฆฌ๋
Data Processing : Data Processing(๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ)๋ ํน์ฑ ๋ถ์์ ์ ํฉํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๋ ์์ ์ด๋ค. ๊ฐ์ฅ ๋ง์ ๋ ธ๋ ฅ์ด ๋ค์ด๊ฐ๋ ๊ณผ์ ..! ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ์ข ๋ฅ๋ ํฌ๊ฒ ๋ค์๊ณผ ๊ฐ๋ค. 1. Data Cleaning(๋ฐ์ด
xod22.tistory.com
์ ๋ฒ ํฌ์คํ ์์ ๋ฐ์ดํฐ ํด๋ฆฌ๋์ ๋ํด ๊ณต๋ถ๋ฅผ ํด๋ณด์์ต๋๋ค.
์ด๋ฒ ํฌ์คํ ์์๋ ์ ์ฒ๋ฆฌ์ ๋๋ฒ์งธ ์ข ๋ฅ์ธ Data Transformation(๋ฐ์ดํฐ ๋ณํ)์ ๋ํด ๊ณต๋ถํด๋ณด๋ ค๊ณ ํฉ๋๋ค!
1. Data Cleaning(๋ฐ์ดํฐ ํด๋ฆฌ๋) - ๊ฒฐ์ธก์น์ฒ๋ฆฌ,,
2. Data Transformation(๋ฐ์ดํฐ ๋ณํ) - ์ ๊ทํ,,,๋ฑ๋ฑ
3. Data Reduction(๋ฐ์ดํฐ ์ถ์) - ์ฐจ์์ถ์,,,
Data Transform
: ๋ฐ์ดํฐ๋ ์คํ ํ๊ฒฝ์์ ์์ฑ๋๋ ๊ฒฝ์ฐ๊ฐ ๊ฑฐ์ ์์ผ๋ฏ๋ก ๋ฐ์ดํฐ์ ๋ณํ์ด ์ค์ํฉ๋๋ค!
normalization(์ ๊ทํ)์ ๋ฐฉ๋ฒ์๋ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์์ง๋ง ์ ๋ ๊ทธ์ค์์๋ ํนํ ๋ง์ด ์ฌ์ฉ๋๋
MinMaxScaler์ z-score๋ฅผ ์ด์ฉํ StandardScaler์ ๋ํด ๊ณต๋ถํด๋ณด๋ ค๊ณ ํฉ๋๋ค..!
MinMaxScaler
: ์ต๋, ์ต์๊ฐ์ด 0,1์ด ๋๋๋ก ์ ๊ทํ ํ๋ ๋ฐฉ๋ฒ
1. ํจํค์ง ์ํฌํธ
import pandas as pd
import numpy as np
2. ๋ฐ์ดํฐ ํด๋ฆฌ๋ - ๊ฒฐ์ธก์น ์ฒ๋ฆฌ
dataset=pd.read_csv("pima-indians-diabetes.csv", header=None)
dataset[[1,2,3,4,5]]=dataset[[1,2,3,4,5]].replace(0, np.nan)
dataset.dropna(inplace=True)
3. ๋ณํํ ์ปฌ๋ผ๋ง ๋ฐ๋ก ์ ์ฅ
#์ด(2,5)->ํ์ ๋ฐ BMI๋ฐ์ดํฐ์ ์ด์
datablbm=dataset[{2,5}]
4. MinMaxScaler ์ ์ฉ
์ ๊ทํ์์ fit->transform ๊ณผ์ ์ด ๊ผญ ์งํ๋์ด์ผ ํ๋ค.
from sklearn.preprocessing import MinMaxScaler
minmax=MinMaxScaler()
#fit&transform
minmax.fit(datablbm)
blbmmm=minmax.transform(datablbm)
#๋ฐ์ดํฐํ๋ ์ ํ์์ผ๋ก ๋ฐ๊ฟ
blbm=pd.DataFrame(blbmmm)
print(blbm.describe())
min-max ๊ฐ์ด 0,1๋ก ๋ณํ๋ ๊ฒ์ ํ์ธ ํ ์ ์๋ค!
Standard Scaler
: ํ๊ท ์ด 0, ํ์คํธ์ฐจ๊ฐ 1์ด ๋๋๋ก ์ ๊ทํํ๋ ๋ฐฉ๋ฒ
1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ ๋ฐ ๋ฐ์ดํฐ ํด๋ฆฌ๋
dataset=pd.read_csv("pima-indians-diabetes.csv", header=None)
dataset[[1,2,3,4,5]]=dataset[[1,2,3,4,5]].replace(0, np.nan)
dataset.dropna(inplace=True)
2. ์ ๊ทํ๋ฅผ ์งํํ ์ปฌ๋ผ๋ง ์ ์ฅ
#์ด(2,5)->ํ์ ๋ฐ BMI๋ฐ์ดํฐ์ ์ด์
datablbm=dataset[{2,5}]
3. StandardScaler ์ ์ฉ
from sklearn.preprocessing import StandardScaler
stand=StandardScaler()
stand.fit(datablbm)
blbmst=stand.transform(datablbm)
#๋ฐ์ดํฐํ๋ ์ ํ์์ผ๋ก ๋ฐ๊ฟ
blbm2=pd.DataFrame(blbmst)
print(blbm2.describe())