[전처리] Data Transformation(데이터 변환)

[전처리] Data Transformation(데이터 변환) - 정규화

xod22 2022. 3. 6. 00:25

728x90

2022.03.04 - [데이터 분석/02. Data Processing] - [전처리] Types of data processing 및 데이터 클리닝

[전처리] Types of data processing 및 데이터 클리닝

Data Processing : Data Processing(데이터 전처리)란 특성 분석에 적합하게 데이터를 가공하는 작업이다. 가장 많은 노력이 들어가는 과정..! 데이터 전처리의 종류는 크게 다음과 같다. 1. Data Cleaning(데이

xod22.tistory.com

저번 포스팅에서 데이터 클리닝에 대해 공부를 해보았습니다.

이번 포스팅에서는 전처리의 두번째 종류인 Data Transformation(데이터 변환)에 대해 공부해보려고 합니다!

~~1. Data Cleaning(데이터 클리닝) - 결측치처리,,~~

2. Data Transformation(데이터 변환) - 정규화,,,등등

3. Data Reduction(데이터 축소) - 차원축소,,,

Data Transform

: 데이터는 실험 환경에서 생성되는 경우가 거의 없으므로 데이터의 변환이 중요합니다!

normalization(정규화)의 방법에는 여러가지가 있지만 저는 그중에서도 특히 많이 사용되는

MinMaxScaler와 z-score를 이용한 StandardScaler에 대해 공부해보려고 합니다..!

MinMaxScaler

: 최대, 최소값이 0,1이 되도록 정규화 하는 방법

1. 패키지 임포트

import pandas as pd
import numpy as np

2. 데이터 클리닝 - 결측치 처리

pima-indians-diabetes.csv

0.02MB

dataset=pd.read_csv("pima-indians-diabetes.csv", header=None)
dataset[[1,2,3,4,5]]=dataset[[1,2,3,4,5]].replace(0, np.nan)
dataset.dropna(inplace=True)

3. 변환할 컬럼만 따로 저장

#열(2,5)->혈압 및 BMI데이터에 초점
datablbm=dataset[{2,5}]

4. MinMaxScaler 적용

정규화에서 fit->transform 과정이 꼭 진행되어야 한다.

from sklearn.preprocessing import MinMaxScaler
minmax=MinMaxScaler()

#fit&transform
minmax.fit(datablbm)
blbmmm=minmax.transform(datablbm)

#데이터프레임 형식으로 바꿈
blbm=pd.DataFrame(blbmmm)
print(blbm.describe())

min-max 값이 0,1로 변환된 것을 확인 할 수 있다!

Standard Scaler

: 평균이 0, 표준편차가 1이 되도록 정규화하는 방법

1. 데이터 불러오기 및 데이터 클리닝

dataset=pd.read_csv("pima-indians-diabetes.csv", header=None)
dataset[[1,2,3,4,5]]=dataset[[1,2,3,4,5]].replace(0, np.nan)
dataset.dropna(inplace=True)

2. 정규화를 진행할 컬럼만 저장

#열(2,5)->혈압 및 BMI데이터에 초점
datablbm=dataset[{2,5}]

3. StandardScaler 적용

from sklearn.preprocessing import StandardScaler
stand=StandardScaler()
stand.fit(datablbm)
blbmst=stand.transform(datablbm)

#데이터프레임 형식으로 바꿈
blbm2=pd.DataFrame(blbmst)
print(blbm2.describe())

728x90