[전처리] Types of data processing 및 데이터 클리닝

🔍 데이터 분석/02. Data Processing

[전처리] Types of data processing 및 데이터 클리닝

xod22 2022. 3. 4. 23:00

728x90

Data Processing

: Data Processing(데이터 전처리)란 특성 분석에 적합하게 데이터를 가공하는 작업이다.

가장 많은 노력이 들어가는 과정..!

데이터 전처리의 종류는 크게 다음과 같다.

1. Data Cleaning(데이터 클리닝) - 결측치처리,,

2. Data Transformation(데이터 변환) - 정규화,,,등등

3. Data Reduction(데이터 축소) - 차원축소,,,

*그럼 데이터 전처리의 첫번째 Data Cleaning에 대해 공부해보겠습니다..!

~1. Data Cleaning(데이터 클리닝)~

결측치 삭제

1. 패키지 임포트 및 데이터 불러오기

pima-indians-diabetes.csv

0.02MB

from pandas import read_csv
dataset=read_csv('pima-indians-diabetes.csv', header=None)

2. 데이터 확인

print(dataset.describe())
#0은 결측치 인데 min값이 0으로 확인됨

3. 결측치 개수 확인

num_missing=(dataset[[1,2,3,4,5]]==0).sum()
print(num_missing)

1,2,3,4,5 행에서 0의 갯수를 세어보면 결측치의 개수를 확인할 수 있음!

4. 0을 결측치(nan)으로 변경

import numpy as np
dataset=read_csv('pima-indians-diabetes.csv', header=None)
datasetorig=dataset.copy()

dataset[[1,2,3,4,5]]=dataset[[1,2,3,4,5]].replace(0, np.nan)
print(datasetorig.head(10))
print(dataset.head(10))
#0이 nan으로 잘 바뀐 것을 확인

0을 nan으로 바꾸어서 결측치를 처리할 수 있도록 해줌!

5. 결측치 삭제

#nan으로 바꿔주었으므로 dropna를 행하면 na값삭제(행삭제)
#inplace=True : 삭제된 데이터프레임으로 대체
#axis=0(디폴트값) -> 행삭제
#axis=1(디폴트값) -> 열삭제

dataset.dropna(inplace=True)

6. 삭제 전후 비교

print("삭제전 행개수 :", datasetorig.shape)
print("삭제후 행개수 :", dataset.shape)

결측치 행을 모두 삭제하니 개수가 많이 줄어든 것을 확인할 수 있다.

이렇게 데이터의 손실이 큰 경우에는 삭제보다는 결측치를 대체하는 방법을 활용하기도 한다!

결측치 대체

1. 다시 데이터 불러오기 및 nan(결측치)로 변경

import pandas as pd
dataset=pd.read_csv('pima-indians-diabetes.csv', header=None)
datasetorig=dataset.copy()
dataset[[1,2,3,4,5]]=dataset[[1,2,3,4,5]].replace(0, np.nan)

2. 최빈값/중앙값/평균값으로 변경 가능

from sklearn.impute import SimpleImputer
import pandas as pd
values=dataset.values

#strategy='most_frequent' -> 최빈값
#strategy='median' -> 중앙값
#strategy='mean' -> 평균값
imputer=SimpleImputer(missing_values=np.nan, strategy='mean')
dataimputed=pd.DataFrame(imputer.fit_transform(values))

#행개수가 그대로임
print("삭제전 행개수 :", datasetorig.shape)
print("삭제후 행개수 :", dataset.shape)

#결측치는 사라진것을 확인할 수 있음
num_missing=(dataimputed[[1,2,3,4,5]]==0).sum()
print(num_missing)

3. 결측치를 알고리즘을 통하여 대체

import pandas as pd
dataset=pd.read_csv('pima-indians-diabetes.csv', header=None)
datasetorig=dataset.copy()
dataset[[1,2,3,4,5]]=dataset[[1,2,3,4,5]].replace(0, np.nan)

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

imputer=IterativeImputer()
datatrans=pd.DataFrame(imputer.fit_transform(dataset))
pip install missingpy

~랜덤포레스트 값으로 대체~

from missingpy import MissForest
imputer=MissForest()
datatrans=pd.DataFrame(impupter.fit_transform(dataset))

~KNN 값으로 대체~

from missingpy import KNNImputer
imputer=KNNImputer()
datatrans=pd.DataFrame(impupter.fit_transform(dataset))

728x90