πŸ” 데이터 뢄석/02. Data Processing

[μ „μ²˜λ¦¬] Data Transformation(데이터 λ³€ν™˜) - μƒˆλ‘œμš΄ 속성 λ§Œλ“€κΈ°

xod22 2022. 3. 6. 12:53
728x90

2022.03.06 - [데이터 뢄석/02. Data Processing] - [μ „μ²˜λ¦¬] Data Transformation(데이터 λ³€ν™˜) - μ •κ·œν™”

 

[μ „μ²˜λ¦¬] Data Transformation(데이터 λ³€ν™˜) - μ •κ·œν™”

2022.03.04 - [데이터 뢄석/02. Data Processing] - [μ „μ²˜λ¦¬] Types of data processing 및 데이터 클리닝 [μ „μ²˜λ¦¬] Types of data processing 및 데이터 클리닝 Data Processing : Data Processing(데이터 μ „μ²˜λ¦¬..

xod22.tistory.com

데이터 λ³€ν™˜ μž‘μ—…μ—λŠ” μ •κ·œν™” 외에도 기쑴의 μ»¬λŸΌμ„ μ΄μš©ν•˜μ—¬ μƒˆλ‘œμš΄ μ»¬λŸΌμ„ λ§Œλ“€κ±°λ‚˜

데이터λ₯Ό 더 큰 λ‹¨μœ„λ‘œ μ§‘κ³„ν•˜λŠ” λ“±μ˜ μ—¬λŸ¬κ°€μ§€ λ³€ν™˜μž‘μ—…μ΄ μžˆλŠ”λ°μš”!

 

μ €λ²ˆ ν¬μŠ€νŒ…μ— μ΄μ–΄μ„œ 데이터 λ³€ν™˜μ— λŒ€ν•΄ μΆ”κ°€μ μœΌλ‘œ 곡뢀해보렀고 ν•©λ‹ˆλ‹€.


 μƒˆλ‘œμš΄ 속성 λ§Œλ“€κΈ°

 

~μ‹€μŠ΅~

: μƒˆλ‘œμš΄ BMI μ»¬λŸΌμ„ 좔가해라.

weight-height.csv
0.41MB

 

1. 데이터 뢈러였기 및 ꡬ쑰확인

heiwei=pd.read_csv("weight-height.csv")
print(heiwei.info())
print(heiwei.head(5))

 

 

2. 계산 전에 데이터 λ‹¨μœ„ λ°”κΎΈκΈ°

# Height(meter)와 Weight(kg)의 λ‹¨μœ„λ₯Ό λ°”κΏ”μ€Œ!
heiwei['Heightc']=2.54*heiwei['Height']/100
heiwei['Weightk']=0.453592*heiwei['Weight']

λ‹¨μœ„λ₯Ό λ°”κΏ”μ„œ μƒˆλ‘œμš΄ 컬럼인 'Heightc'/'Weightk'에 μ €μž₯ν•΄μ€€λ‹€!

 

 

3. μƒˆλ‘œμš΄ BMI 컬럼 생성

# μƒˆλ‘œμš΄ μ»¬λŸΌμ„ μƒμ„±ν•΄μ€Œ
heiwei['BMI']=heiwei['Weightk']/(heiwei['Heightc']**2)
print(heiwei.info())

μƒˆλ‘œμš΄ 컬럼이 μƒμ„±λœ 것을 확인할 수 μžˆλ‹€!!

 

 

더 큰 λ‹¨μœ„λ‘œ μ§‘κ³„ν•˜κΈ°

 

~μ‹€μŠ΅~

salesdaily.csv
0.11MB

 

1. 데이터 뢈러였기 및 데이터 νƒ€μž… 확인

# 일일 μ•½κ΅­ νŒŒλƒ„ 데이터λ₯Ό 월별, 뢄기별, μ—°κ°„ 판맀 λ°μ΄ν„°λ‘œ λ³€ν™˜
sales=pd.read_csv('salesdaily.csv')
print(sales.info())

datum 컬럼의 데이터 νƒ€μž…μ΄ object인 것을 확인함.

 

 

2. 데이터 νƒ€μž… λ°”κΏ”μ£ΌκΈ°

# 데이터 μ„ΈνŠΈμ˜ 데이터λ₯Ό λ‚ μ§œ ν˜•μ‹μœΌλ‘œ λ³€κ²½
sales['datum']=pd.to_datetime(sales['datum'])
print(sales.info())

-> 데이터 ν˜•μ‹μ΄ datetime으둜 잘 λ°”λ€Œμ—ˆμŒ!

 

 

3. datum을 인덱슀둜 μ„€μ •

sales.set_index('datum', inplace=True)

 

 

4. 월별, 뢄기별, μ—°λ„λ³„λ‘œ λ‹€μ‹œ μƒ˜ν”Œλ§

salesm=sales.resample('M').sum() #μ›”
salesq=sales.resample('Q').sum() #λΆ„κΈ°
salesa=sales.resample('A').sum() #연도
print("월별 :", salesm)
print("뢄기별 :", salesq)
print("연도별 :", salesa)

->월별/뢄기별/μ—°λ„λ³„λ‘œ 잘 μ§‘κ³„λ˜μ—ˆμŒ!

728x90