๐Ÿ” ๋ฐ์ดํ„ฐ ๋ถ„์„/02. Data Processing

[์ „์ฒ˜๋ฆฌ] Data Reduction(๋ฐ์ดํ„ฐ ์ถ•์†Œ) - ์ˆ˜์น˜์  ์ถ•์†Œ

xod22 2022. 3. 8. 00:30
728x90

2022.03.07 - [๋ฐ์ดํ„ฐ ๋ถ„์„/02. Data Processing] - [์ „์ฒ˜๋ฆฌ] Data Reduction(๋ฐ์ดํ„ฐ ์ถ•์†Œ) - ์ฐจ์›์ถ•์†Œ

 

[์ „์ฒ˜๋ฆฌ] Data Reduction(๋ฐ์ดํ„ฐ ์ถ•์†Œ) - ์ฐจ์›์ถ•์†Œ

2022.03.06 - [๋ฐ์ดํ„ฐ ๋ถ„์„/02. Data Processing] - [์ „์ฒ˜๋ฆฌ] Data Transformation(๋ฐ์ดํ„ฐ ๋ณ€ํ™˜) [์ „์ฒ˜๋ฆฌ] Data Transformation(๋ฐ์ดํ„ฐ ๋ณ€ํ™˜) - ์ •๊ทœํ™” 2022.03.04 - [๋ฐ์ดํ„ฐ ๋ถ„์„/02. Data Processing] - [์ „์ฒ˜๋ฆฌ..

xod22.tistory.com

Data Reduction(๋ฐ์ดํ„ฐ ์ถ•์†Œ)์˜ ๋‘๋ฒˆ์งธ ๋ฐฉ๋ฒ•์ธ ์ˆ˜์น˜์  ์ถ•์†Œ์— ๋Œ€ํ•ด ์ ์–ด๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค!


Numerosity reduction(์ˆ˜์น˜์  ์ถ•์†Œ)

 

: ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ฅผ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•

 

~๋žœ๋ค์ƒ˜ํ”Œ๋ง~

 

1. ํŒจํ‚ค์ง€ ์ž„ํฌํŠธ

from sklearn.datasets import load_iris
import pandas as pd
iris=load_iris()

 

 

2. ๋ฐ์ดํ„ฐ ํ™•์ธ

#x์ปฌ๋Ÿผ๋งŒ data์— ์ €์žฅ
data=pd.DataFrame(iris.data, columns=['Sepal length', 'Sepal width', 'Petal length', 'Petal width'])
print(data.info())

๋ฐ์ดํ„ฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ 150๊ฐœ ์ธ ๊ฒƒ์„ ํ™•์ธ

 

 

3. ์ƒ˜ํ”Œ๋ง

: ์ƒ˜ํ”Œ๋งํ•  ๋•Œ ์žฌํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก random_state=1000์œผ๋กœ ์„ค์ •!

 

~์ฒซ๋ฒˆ์งธ ๋ฐฉ๋ฒ• : ๊ฐœ์ˆ˜๋กœ ์ƒ˜ํ”Œ๋ง~

samn=data.sample(n=15, random_state=1000) #15๊ฐœ ์ƒ˜ํ”Œ๋ง

 

~๋‘๋ฒˆ์งธ ๋ฐฉ๋ฒ• : ๋น„์œจ๋กœ ์ƒ˜ํ”Œ๋ง~

samf=data.sample(frac=0.1, random_state=1000) #์ „์ฒด์˜ 10% ์ƒ˜ํ”Œ๋ง(15๊ฐœ์ž„)

 

=> ๊ฒฐ๊ณผ ํ™•์ธ

#๊ฐ™์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ด
print(samn.head(5))
print(samf.head(5))

 

~์„ธ๋ฒˆ์งธ ๋ฐฉ๋ฒ• : ์ค‘๋ณต ํ—ˆ๋ฝํ•˜๊ณ  ์ƒ˜ํ”Œ๋ง~

#replace=True : ๋ฝ‘ํžŒ๊ฑธ ๋˜ ๋ฝ‘์•„๋„๋จ
samwr=data.sample(n=15, replace=True, random_state=1000)

 

=>๊ฒฐ๊ณผ ํ™•์ธ

print(samwr.head(15))

์ด๋ ‡๊ฒŒ ์ด๋ฏธ ํ•œ์ฐจ๋ก€ ์ƒ˜ํ”Œ๋ง ๋œ ๊ฒฐ๊ณผ ๊ฐ’์ด ๋˜ ์ƒ˜ํ”Œ๋ง๋  ์ˆ˜ ์žˆ๋‹ค..!

728x90