[์ ์ฒ๋ฆฌ] Data Reduction(๋ฐ์ดํฐ ์ถ์) - ์ฐจ์์ถ์
2022.03.06 - [๋ฐ์ดํฐ ๋ถ์/02. Data Processing] - [์ ์ฒ๋ฆฌ] Data Transformation(๋ฐ์ดํฐ ๋ณํ) [์ ์ฒ๋ฆฌ] Data Transformation(๋ฐ์ดํฐ ๋ณํ) - ์ ๊ทํ 2022.03.04 - [๋ฐ์ดํฐ ๋ถ์/02. Data Processing] - [์ ์ฒ๋ฆฌ..
xod22.tistory.com
Data Reduction(๋ฐ์ดํฐ ์ถ์)์ ๋๋ฒ์งธ ๋ฐฉ๋ฒ์ธ ์์น์ ์ถ์์ ๋ํด ์ ์ด๋ณด๋ ค๊ณ ํฉ๋๋ค!

Numerosity reduction(์์น์ ์ถ์)
: ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ
~๋๋ค์ํ๋ง~
1. ํจํค์ง ์ํฌํธ
from sklearn.datasets import load_iris
import pandas as pd
iris=load_iris()
2. ๋ฐ์ดํฐ ํ์ธ
#x์ปฌ๋ผ๋ง data์ ์ ์ฅ
data=pd.DataFrame(iris.data, columns=['Sepal length', 'Sepal width', 'Petal length', 'Petal width'])
print(data.info())
๋ฐ์ดํฐ์ ๊ฐ์๊ฐ 150๊ฐ ์ธ ๊ฒ์ ํ์ธ
3. ์ํ๋ง
: ์ํ๋งํ ๋ ์ฌํํ ์ ์๋๋ก random_state=1000์ผ๋ก ์ค์ !
~์ฒซ๋ฒ์งธ ๋ฐฉ๋ฒ : ๊ฐ์๋ก ์ํ๋ง~
samn=data.sample(n=15, random_state=1000) #15๊ฐ ์ํ๋ง
~๋๋ฒ์งธ ๋ฐฉ๋ฒ : ๋น์จ๋ก ์ํ๋ง~
samf=data.sample(frac=0.1, random_state=1000) #์ ์ฒด์ 10% ์ํ๋ง(15๊ฐ์)
=> ๊ฒฐ๊ณผ ํ์ธ
#๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋์ด
print(samn.head(5))
print(samf.head(5))
~์ธ๋ฒ์งธ ๋ฐฉ๋ฒ : ์ค๋ณต ํ๋ฝํ๊ณ ์ํ๋ง~
#replace=True : ๋ฝํ๊ฑธ ๋ ๋ฝ์๋๋จ
samwr=data.sample(n=15, replace=True, random_state=1000)
=>๊ฒฐ๊ณผ ํ์ธ
print(samwr.head(15))
์ด๋ ๊ฒ ์ด๋ฏธ ํ์ฐจ๋ก ์ํ๋ง ๋ ๊ฒฐ๊ณผ ๊ฐ์ด ๋ ์ํ๋ง๋ ์ ์๋ค..!