- loc : ์ธ๋ฑ์ค ์ด๋ฆ์ ๊ธฐ์ค์ผ๋ก ์ถ์ถ(์ฌ๋์ด ์ฝ์ ์ ์๋ label๊ฐ์ผ๋ก ํน์ ๊ฐ๋ค์ ๊ณจ๋ผ์ค๋ ๋ฐฉ๋ฒ) - iloc : ๋ฐ์ดํฐ ํ๋ ์์ ํ์ด๋ ์ปฌ๋ผ์ ์ธ๋ฑ์ค ๊ฐ์ผ๋ก ์ ๊ทผํ๋ ๋ฐฉ๋ฒ loc ์์ df.loc[ํ ์ธ๋ฑ์ฑ ๊ฐ, ์ด ์ธ๋ฑ์ฑ ๊ฐ] 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd customer_m=pd.read_csv("customer_master.csv") customer_m 2. ๋ ์ด๋ธ ์ด๋ฆ์ด "0"์ธ ํ ์ถ์ถ customer_m.loc[0] ๋ ์ด๋ธ ์ด๋ฆ์ด "0"์ธ ํ์ ์ถ์ถํ ๊ฒ์ ํ์ธ 3. ๋ ์ด๋ธ ์ด๋ฆ์ด "1"์ธ ํ ์ถ์ถ customer_m.loc[1] ๋ ์ด๋ธ ์ด๋ฆ์ด "1"์ธ ํ์ ์ถ์ถํ ๊ฒ์ ํ์ธ 4. ๋ ์ด๋ธ ์ด๋ฆ์ด "customer_id"์ธ ์ด ์ถ์ถ customer_m.lo..
14๋ฒ ๋ค์์ ๊ธฐ์
์์ ์์ฑ๋ ์ฃผ๋ฌธ ๋ฐ์ดํฐ์ด๋ค. 80,009๊ฑด์ ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ ์ ๋์ฐฉ๊ฐ๋ฅ ์ฌ๋ถ ์์ธก ๋ชจ๋ธ์ ๋ง๋ค๊ณ , ํ๊ฐ ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ ์๋์ฐฉ ๊ฐ๋ฅ ์ฌ๋ถ ์์ธก ํ๋ฅ ์ ๊ธฐ๋กํ csv๋ฅผ ์์ฑํ์์ค. ํ์ด 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd data=pd.read_csv("Train.csv") 2. ๋ฐ์ดํฐ ํ์
ํ์ธํ๊ธฐ print(data.info()) 3. x,y ์ปฌ๋ผ ๋๋ ์ ์ ์ฅ X=data.drop('Reached.on.Time_Y.N', axis=1) y=data[['Reached.on.Time_Y.N']] 4. ๋๋ฏธ ๋ณํ X=pd.get_dummies(X) 5. train/test ๋ถ๋ฆฌ from sklearn.model_selection import train_test_..
13๋ฒ ๋ฌธ์ ๋ค์์ Insurance epdlxj tpxmdlek. Charges ํญ๋ชฉ์์ ์ด์๊ฐ์ ํฉ์ ๊ตฌํ์์ค. (์ด์๊ฐ์ ํ๊ท ์์ 1.5 ํ์คํธ์ฐจ ์ด์์ธ ๊ฐ) ํ์ด 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd data=pd.read_csv("insurance.csv") 2. ๋ฐ์ดํฐ ํ์
ํ์ธ print(data.info()) 3. ํ๊ท , ํ์คํธ์ฐจ ์ ์ฅ mean=data['charges'].mean() std=data['charges'].std() 4. ์ด์๊ฐ์ธ ํ๋ง ์ ์ฅ result=data[data['charges']>=mean+1.5*std] 5. ํฉ result=result['charges'].sum() 6. ๊ฒฐ๊ณผ๊ฐ ์ ์ถ print(result)
12๋ฒ ๋ฌธ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์ฒซ ๋ฒ์งธ ํ๋ถํฐ ์์๋๋ก 80%๊น์ง์ ๋ฐ์ดํฐ๋ฅผ ํ๋ จ ๋ฐ์ดํฐ๋ก ์ถ์ถ ํ 'total_bedrooms' ๋ณ์์ ๊ฒฐ์ธก๊ฐ(NA)์ 'total_bedrooms' ๋ณ์์ ์ค์๊ฐ์ผ๋ก ๋์ฒดํ๊ณ ๋์ฒด ์ ์ 'total_bedroom' ๋ณ์ ํ์คํธ์ฐจ ๊ฐ๊ณผ ๋์ฒด ํ์ 'total_bedrooms' ๋ณ์ ํ์คํธ์ฐจ ๊ฐ ์ฐจ์ด์ ์ ๋๊ฐ์ ๊ตฌํ์์ค. 12๋ฒ ํ์ด 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd data=pd.read_csv("housing.csv") 2. 80%-ํ๋ จ๋ฐ์ดํฐ๋ก ์ถ์ถ len_data=len(data)*0.8 len_data=int(len_data) #์ถ์ถ train=data[:len_data] - len( ) : ๋ฐ์ดํฐ์ ํ ๊ฐ์๋ฅผ ์ ์ฅ - int( ) : 0.8์..
*์์
ํ ์ 1 ์ ํ์ ์ ์ถํ ๋ ์ฃผ์์ ์ ์ค๊ฐ์ ํธ๋ ๊ณผ์ ์์ print๊ฐ ์์๋ค๋ฉด ๋ง์ง๋ง์ ์ ์ถ ์ ์๋ "#"์ ๋ถ์ฌ์ ์ฃผ์ ์ฒ๋ฆฌ๋ฅผ ํด์ฃผ์๊ณ ์ต์ข
print๋ง ์ถ๋ ฅ๋๋๋ก ํด์ผํ๋ค๋ ๊ฒ..! 11๋ฒ ๋ฌธ์ ๋ค์์ BostonHousing ๋ฐ์ดํฐ ์ธํธ์ด๋ค. crim ํญ๋ชฉ์ ์์์์ 10๋ฒ์งธ ๊ฐ(์ฆ, ์์ 10๋ฒ์งธ ๊ฐ ์ค์์ ๊ฐ์ฅ ์ ์ ๊ฐ)์ผ๋ก ์์ 10๊ฐ์ ๊ฐ์ ๋ณํํ๊ณ , age 80 ์ด์์ธ ๊ฐ์ ๋ํ์ฌ crim ํ๊ท ์ ๊ตฌํ์์ค. 11๋ฒ ํ์ด 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd data=pd.read_csv("BostonHousing.csv") 2. info() print(data.info()) => 506๊ฐ์ ํ๊ณผ, 15๊ฐ์ ์ปฌ๋ผ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ ํ๋ ์์ธ ๊ฒ์ ํ์ธํ์ต๋๋ค 3. ..
์์
ํ ์ 1์ ํ์ ํ์ด๋๊ฐ ๋ ์์ฃผ ๋ฑ์ฅํ๋ ๊ฒ๋ค์ ์ ๋ฆฌํด๋ณด์์ต๋๋ค! ๊ทธ๋ผ ์์! 1. ์ค๋ฆ์ฐจ์, ๋ด๋ฆผ์ฐจ์ ์ ๋ ฌ ๋ฐ์ดํฐํ๋ ์์ ๋ค๋ฃฐ ๋ ์ค๋ฆ์ฐจ์์ด๋ ๋ด๋ฆผ์ฐจ์์ผ๋ก ์ ๋ ฌํด์ผํ๋ ๊ฒฝ์ฐ๊ฐ ์์ฃผ ๋ฑ์ฅํ๋ค. ์ค๋ฆ์ฐจ์(์์์๋ถํฐ)์ผ๋ก ์ ๋ ฌํ๋ ค๋ฉด ํน๋ณํ ์ต์
์ ์ฃผ์ง์์๋ ๋์ง๋ง ๋ด๋ฆผ์ฐจ์(ํฐ์๋ถํฐ)์ผ๋ก ์ ๋ ฌํ๊ณ ์ถ๋ค๋ฉด ascending=False๋ผ๋ ์ต์
์ ์ถ๊ฐํด์ฃผ์ด์ผ ํ๋ค. # ๋ฐ์ดํฐํ๋ ์๋ช
.sort_values('์ปฌ๋ผ๋ช
', ascending=False, inplace=True) # data์ 'CRIM'์ ๋ด๋ฆผ์ฐจ์์ผ๋ก ์ ๋ ฌํ์ฌ๋ผ data.sort_values('CRIM', ascending=False, inplace=True) inplace=True ์ต์
์ ์ถ๊ฐํ๋ฉด data(๋ฐ์ดํฐํ๋ ์๋ช
)์ด ์ต์
์ ๋ง๊ฒ ๋ฐ๋๋ค. ..
์ ๋ ์ 3ํ ๋น
๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ ์ํ์ ์์ํ๊ณ ! ๊ฒฐ๊ณผ๋ ํฉ๊ฒฉ!!! ๋น
๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ ์ค๊ธฐ ์ํ์ ๋ํ ์ ๋ณด๊ฐ ๋ง์ด ์์ด์ ๊ณต๋ถ ๋ฐฉ๋ฒ์ ์ฐพ์๊ฐ๋๊ฒ ๊ฐ์ฅ ์ด๋ ค์ ๋ ๊ฒ ๊ฐ์์! ๊ทธ๋์ ์ด๋ฒ ํฌ์คํ
์์ ์ ๊ฐ ํ ๊ณต๋ถ๋ฐฉ๋ฒ ๋ฐ ํ์ ์ ์ด๋ณด๋ ค๊ณ ํฉ๋๋ค. 1. ๊ต์ฌ ์ฐ์ ์ ๋ ์ฐ์
๊ฒฝ์๊ณตํ์ ์ ๊ณตํ๊ณ ์๊ณ ๊ทธ๋ฌ๋ค๋ณด๋ python์ผ๋ก ๋ฐ์ดํฐ๋ถ์์ ์์ฃผ(?) ํด์์ด์ ๊ณต๋ถ๊ธฐ๊ฐ์ ๊ทธ๋ ๊ฒ ์ค๋ ์ก์ง๋ ์์๊ณ ๋ฐ๋ณต์ ์ผ๋ก ์ฝ๋๋ฅผ ๋ง์ด ์์ฑํด๋ณธ ๊ฒ ๊ฐ์์. ๊ทธ๋๋ ์ฝ๋๋ฅผ ์ ๋ถ ์ธ์์ ์ํ์ ์์๋ฅผ ํด์ผํ๊ณ ์ด๋ค ๋ฐ์ดํฐํ๋ ์์ ์ด๋ป๊ฒ ๋ณํํ์ฌ ์ฌ์ฉํด์ผํ ์ง ๋ชจ๋ฅด๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ผ๋งํผ python์ ์๋๋๋ณด๋ค ์ฒ์๋ถํฐ ์ฐจ๊ทผ์ฐจ๊ทผ ๊ณต๋ถ๋ฅผ ํด๋๊ฐ์๋ ๊ฒ์ด ์ค์ํ ๊ฒ ๊ฐ์ต๋๋ค! ์ฑ
์ ์ด๋ ๊ฒ ๋ฐ์ดํฐ์บ ํผ์ค์ ์์ ๋น ์ฑ
๋๊ถ์ ๊ตฌ์
ํ์๋๋ฐ (์ ๊ฐ ๋ค์..
*pandas ํจํค์ง๋ฅผ ์ต์ํ๊ฒ ๋ค๋ฃฐ ์ค ์๋ค๋ฉด ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์์ ์ฝ๊ฒ ๋ถ์์ ์คํํ ์ ์๋ค! *์ง์ ํ์ผ์ ๋ถ๋ฌ์์ ๋ค๋ค๋ณด๋ ๊ฒ์ด ์ค๋ ฅ์ด ๋ ์ ์๋ ๊ฐ์ฅ ๋น ๋ฅธ ๋ฐฉ๋ฒ์ด๋ค. ๊ทธ๋ผ ์์! ์ฐ์ ํ์ด์ฌ์์ pandas ํจํค์ง๋ฅผ ์ฌ์ฉํ๊ธฐ ์ ํญ์ ์ ์ธํด์ฃผ์ด์ผํ๋ค. as pd๋ pandas๋ฅผ pd๋ก ์จ์ฃผ๊ฒ ๋ค๋ ์๋ฏธ์ด๋ฏ๋ก ์ดํ์๋ pd๋ก ์จ์ฃผ์ด ํ๋ค์ค๋ฅผ ๊ธฐ๋ฅ๋ค์ ์ด์ฉํ๋ค. import pandas as pd 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ excelํ์ผ์ ๋ถ๋ฌ์ฌ ๋๋ ํ์ผ๋ช
์ .xlsx๋ฅผ csvํ์ผ์ ๋ถ๋ฌ์ฌ ๋๋ ํ์ผ๋ช
์ .csv๊น์ง ๋ถ์ฌ์ ๋ถ๋ฌ์์ผํ๋ค. # pd.read_excel("ํ์ผ๋ช
.xlsx") # pd.read_csv("ํ์ผ๋ช
.csv") df=pd.read_excel("EX_GrapeData.xlsx") pri..