[μ μ²λ¦¬] Data Transformation(λ°μ΄ν° λ³ν) - μλ‘μ΄ μμ± λ§λ€κΈ°
[μ μ²λ¦¬] Data Transformation(λ°μ΄ν° λ³ν) - μ κ·ν
2022.03.04 - [λ°μ΄ν° λΆμ/02. Data Processing] - [μ μ²λ¦¬] Types of data processing λ° λ°μ΄ν° ν΄λ¦¬λ [μ μ²λ¦¬] Types of data processing λ° λ°μ΄ν° ν΄λ¦¬λ Data Processing : Data Processing(λ°μ΄ν° μ μ²λ¦¬..
xod22.tistory.com
λ°μ΄ν° λ³ν μμ μλ μ κ·ν μΈμλ κΈ°μ‘΄μ 컬λΌμ μ΄μ©νμ¬ μλ‘μ΄ μ»¬λΌμ λ§λ€κ±°λ
λ°μ΄ν°λ₯Ό λ ν° λ¨μλ‘ μ§κ³νλ λ±μ μ¬λ¬κ°μ§ λ³νμμ μ΄ μλλ°μ!
μ λ² ν¬μ€ν μ μ΄μ΄μ λ°μ΄ν° λ³νμ λν΄ μΆκ°μ μΌλ‘ 곡λΆν΄λ³΄λ €κ³ ν©λλ€.
μλ‘μ΄ μμ± λ§λ€κΈ°
~μ€μ΅~
: μλ‘μ΄ BMI 컬λΌμ μΆκ°ν΄λΌ.
1. λ°μ΄ν° λΆλ¬μ€κΈ° λ° κ΅¬μ‘°νμΈ
heiwei=pd.read_csv("weight-height.csv")
print(heiwei.info())
print(heiwei.head(5))
2. κ³μ° μ μ λ°μ΄ν° λ¨μ λ°κΎΈκΈ°
# Height(meter)μ Weight(kg)μ λ¨μλ₯Ό λ°κΏμ€!
heiwei['Heightc']=2.54*heiwei['Height']/100
heiwei['Weightk']=0.453592*heiwei['Weight']
λ¨μλ₯Ό λ°κΏμ μλ‘μ΄ μ»¬λΌμΈ 'Heightc'/'Weightk'μ μ μ₯ν΄μ€λ€!
3. μλ‘μ΄ BMI μ»¬λΌ μμ±
# μλ‘μ΄ μ»¬λΌμ μμ±ν΄μ€
heiwei['BMI']=heiwei['Weightk']/(heiwei['Heightc']**2)
print(heiwei.info())
μλ‘μ΄ μ»¬λΌμ΄ μμ±λ κ²μ νμΈν μ μλ€!!
λ ν° λ¨μλ‘ μ§κ³νκΈ°
~μ€μ΅~
1. λ°μ΄ν° λΆλ¬μ€κΈ° λ° λ°μ΄ν° νμ νμΈ
# μΌμΌ μ½κ΅ νλ λ°μ΄ν°λ₯Ό μλ³, λΆκΈ°λ³, μ°κ° νλ§€ λ°μ΄ν°λ‘ λ³ν
sales=pd.read_csv('salesdaily.csv')
print(sales.info())
datum 컬λΌμ λ°μ΄ν° νμ μ΄ objectμΈ κ²μ νμΈν¨.
2. λ°μ΄ν° νμ λ°κΏμ£ΌκΈ°
# λ°μ΄ν° μΈνΈμ λ°μ΄ν°λ₯Ό λ μ§ νμμΌλ‘ λ³κ²½
sales['datum']=pd.to_datetime(sales['datum'])
print(sales.info())
-> λ°μ΄ν° νμμ΄ datetimeμΌλ‘ μ λ°λμμ!
3. datumμ μΈλ±μ€λ‘ μ€μ
sales.set_index('datum', inplace=True)
4. μλ³, λΆκΈ°λ³, μ°λλ³λ‘ λ€μ μνλ§
salesm=sales.resample('M').sum() #μ
salesq=sales.resample('Q').sum() #λΆκΈ°
salesa=sales.resample('A').sum() #μ°λ
print("μλ³ :", salesm)
print("λΆκΈ°λ³ :", salesq)
print("μ°λλ³ :", salesa)
->μλ³/λΆκΈ°λ³/μ°λλ³λ‘ μ μ§κ³λμμ!