[์ ์ฒ๋ฆฌ] Data Transformation(๋ฐ์ดํฐ ๋ณํ) - ์ ๊ทํ
2022.03.04 - [๋ฐ์ดํฐ ๋ถ์/02. Data Processing] - [์ ์ฒ๋ฆฌ] Types of data processing ๋ฐ ๋ฐ์ดํฐ ํด๋ฆฌ๋ [์ ์ฒ๋ฆฌ] Types of data processing ๋ฐ ๋ฐ์ดํฐ ํด๋ฆฌ๋ Data Processing : Data Processing(๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ..
xod22.tistory.com
๋ฐ์ดํฐ ๋ณํ ์์ ์๋ ์ ๊ทํ ์ธ์๋ ๊ธฐ์กด์ ์ปฌ๋ผ์ ์ด์ฉํ์ฌ ์๋ก์ด ์ปฌ๋ผ์ ๋ง๋ค๊ฑฐ๋
๋ฐ์ดํฐ๋ฅผ ๋ ํฐ ๋จ์๋ก ์ง๊ณํ๋ ๋ฑ์ ์ฌ๋ฌ๊ฐ์ง ๋ณํ์์ ์ด ์๋๋ฐ์!
์ ๋ฒ ํฌ์คํ ์ ์ด์ด์ ๋ฐ์ดํฐ ๋ณํ์ ๋ํด ์ถ๊ฐ์ ์ผ๋ก ๊ณต๋ถํด๋ณด๋ ค๊ณ ํฉ๋๋ค.
์๋ก์ด ์์ฑ ๋ง๋ค๊ธฐ
~์ค์ต~
: ์๋ก์ด BMI ์ปฌ๋ผ์ ์ถ๊ฐํด๋ผ.
1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ ๋ฐ ๊ตฌ์กฐํ์ธ
heiwei=pd.read_csv("weight-height.csv")
print(heiwei.info())
print(heiwei.head(5))
2. ๊ณ์ฐ ์ ์ ๋ฐ์ดํฐ ๋จ์ ๋ฐ๊พธ๊ธฐ
# Height(meter)์ Weight(kg)์ ๋จ์๋ฅผ ๋ฐ๊ฟ์ค!
heiwei['Heightc']=2.54*heiwei['Height']/100
heiwei['Weightk']=0.453592*heiwei['Weight']
๋จ์๋ฅผ ๋ฐ๊ฟ์ ์๋ก์ด ์ปฌ๋ผ์ธ 'Heightc'/'Weightk'์ ์ ์ฅํด์ค๋ค!
3. ์๋ก์ด BMI ์ปฌ๋ผ ์์ฑ
# ์๋ก์ด ์ปฌ๋ผ์ ์์ฑํด์ค
heiwei['BMI']=heiwei['Weightk']/(heiwei['Heightc']**2)
print(heiwei.info())
์๋ก์ด ์ปฌ๋ผ์ด ์์ฑ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค!!
๋ ํฐ ๋จ์๋ก ์ง๊ณํ๊ธฐ
~์ค์ต~
1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ ๋ฐ ๋ฐ์ดํฐ ํ์ ํ์ธ
# ์ผ์ผ ์ฝ๊ตญ ํ๋ ๋ฐ์ดํฐ๋ฅผ ์๋ณ, ๋ถ๊ธฐ๋ณ, ์ฐ๊ฐ ํ๋งค ๋ฐ์ดํฐ๋ก ๋ณํ
sales=pd.read_csv('salesdaily.csv')
print(sales.info())
datum ์ปฌ๋ผ์ ๋ฐ์ดํฐ ํ์ ์ด object์ธ ๊ฒ์ ํ์ธํจ.
2. ๋ฐ์ดํฐ ํ์ ๋ฐ๊ฟ์ฃผ๊ธฐ
# ๋ฐ์ดํฐ ์ธํธ์ ๋ฐ์ดํฐ๋ฅผ ๋ ์ง ํ์์ผ๋ก ๋ณ๊ฒฝ
sales['datum']=pd.to_datetime(sales['datum'])
print(sales.info())
-> ๋ฐ์ดํฐ ํ์์ด datetime์ผ๋ก ์ ๋ฐ๋์์!
3. datum์ ์ธ๋ฑ์ค๋ก ์ค์
sales.set_index('datum', inplace=True)
4. ์๋ณ, ๋ถ๊ธฐ๋ณ, ์ฐ๋๋ณ๋ก ๋ค์ ์ํ๋ง
salesm=sales.resample('M').sum() #์
salesq=sales.resample('Q').sum() #๋ถ๊ธฐ
salesa=sales.resample('A').sum() #์ฐ๋
print("์๋ณ :", salesm)
print("๋ถ๊ธฐ๋ณ :", salesq)
print("์ฐ๋๋ณ :", salesa)
->์๋ณ/๋ถ๊ธฐ๋ณ/์ฐ๋๋ณ๋ก ์ ์ง๊ณ๋์์!
'๐ ๋ฐ์ดํฐ ๋ถ์ > 02. Data Processing' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ ์ฒ๋ฆฌ] ๋ค์ด๋ฒ ์ํ ํ์ ํฌ๋กค๋ง ๋ฐ์ดํฐ - Preprocessing (0) | 2022.03.24 |
---|---|
[์ ์ฒ๋ฆฌ] Data Reduction(๋ฐ์ดํฐ ์ถ์) - ์์น์ ์ถ์ (0) | 2022.03.08 |
[์ ์ฒ๋ฆฌ] Data Reduction(๋ฐ์ดํฐ ์ถ์) - ์ฐจ์์ถ์ (0) | 2022.03.07 |
[์ ์ฒ๋ฆฌ] Data Transformation(๋ฐ์ดํฐ ๋ณํ) - ์ ๊ทํ (0) | 2022.03.06 |
[์ ์ฒ๋ฆฌ] Types of data processing ๋ฐ ๋ฐ์ดํฐ ํด๋ฆฌ๋ (0) | 2022.03.04 |