๐Ÿ“š Study/๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ

- loc : ์ธ๋ฑ์Šค ์ด๋ฆ„์„ ๊ธฐ์ค€์œผ๋กœ ์ถ”์ถœ(์‚ฌ๋žŒ์ด ์ฝ์„ ์ˆ˜ ์žˆ๋Š” label๊ฐ’์œผ๋กœ ํŠน์ • ๊ฐ’๋“ค์„ ๊ณจ๋ผ์˜ค๋Š” ๋ฐฉ๋ฒ•) - iloc : ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์˜ ํ–‰์ด๋‚˜ ์ปฌ๋Ÿผ์˜ ์ธ๋ฑ์Šค ๊ฐ’์œผ๋กœ ์ ‘๊ทผํ•˜๋Š” ๋ฐฉ๋ฒ• loc ์˜ˆ์‹œ df.loc[ํ–‰ ์ธ๋ฑ์‹ฑ ๊ฐ’, ์—ด ์ธ๋ฑ์‹ฑ ๊ฐ’] 1. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ import pandas as pd customer_m=pd.read_csv("customer_master.csv") customer_m 2. ๋ ˆ์ด๋ธ” ์ด๋ฆ„์ด "0"์ธ ํ–‰ ์ถ”์ถœ customer_m.loc[0] ๋ ˆ์ด๋ธ” ์ด๋ฆ„์ด "0"์ธ ํ–‰์„ ์ถ”์ถœํ•œ ๊ฒƒ์„ ํ™•์ธ 3. ๋ ˆ์ด๋ธ” ์ด๋ฆ„์ด "1"์ธ ํ–‰ ์ถ”์ถœ customer_m.loc[1] ๋ ˆ์ด๋ธ” ์ด๋ฆ„์ด "1"์ธ ํ–‰์„ ์ถ”์ถœํ•œ ๊ฒƒ์„ ํ™•์ธ 4. ๋ ˆ์ด๋ธ” ์ด๋ฆ„์ด "customer_id"์ธ ์—ด ์ถ”์ถœ customer_m.lo..
14๋ฒˆ ๋‹ค์Œ์€ ๊ธฐ์—…์—์„œ ์ƒ์„ฑ๋œ ์ฃผ๋ฌธ ๋ฐ์ดํ„ฐ์ด๋‹ค. 80,009๊ฑด์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•˜์—ฌ ์ •์‹œ ๋„์ฐฉ๊ฐ€๋Šฅ ์—ฌ๋ถ€ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ , ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•˜์—ฌ ์ •์‹œ๋„์ฐฉ ๊ฐ€๋Šฅ ์—ฌ๋ถ€ ์˜ˆ์ธก ํ™•๋ฅ ์„ ๊ธฐ๋กํ•œ csv๋ฅผ ์ƒ์„ฑํ•˜์‹œ์˜ค. ํ’€์ด 1. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ import pandas as pd data=pd.read_csv("Train.csv") 2. ๋ฐ์ดํ„ฐ ํƒ€์ž… ํ™•์ธํ•˜๊ธฐ print(data.info()) 3. x,y ์ปฌ๋Ÿผ ๋‚˜๋ˆ ์„œ ์ €์žฅ X=data.drop('Reached.on.Time_Y.N', axis=1) y=data[['Reached.on.Time_Y.N']] 4. ๋”๋ฏธ ๋ณ€ํ™˜ X=pd.get_dummies(X) 5. train/test ๋ถ„๋ฆฌ from sklearn.model_selection import train_test_..
13๋ฒˆ ๋ฌธ์ œ ๋‹ค์Œ์€ Insurance epdlxj tpxmdlek. Charges ํ•ญ๋ชฉ์—์„œ ์ด์ƒ๊ฐ’์˜ ํ•ฉ์„ ๊ตฌํ•˜์‹œ์˜ค. (์ด์ƒ๊ฐ’์€ ํ‰๊ท ์—์„œ 1.5 ํ‘œ์ค€ํŽธ์ฐจ ์ด์ƒ์ธ ๊ฐ’) ํ’€์ด 1. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ import pandas as pd data=pd.read_csv("insurance.csv") 2. ๋ฐ์ดํ„ฐ ํƒ€์ž… ํ™•์ธ print(data.info()) 3. ํ‰๊ท , ํ‘œ์ค€ํŽธ์ฐจ ์ €์žฅ mean=data['charges'].mean() std=data['charges'].std() 4. ์ด์ƒ๊ฐ’์ธ ํ–‰๋งŒ ์ €์žฅ result=data[data['charges']>=mean+1.5*std] 5. ํ•ฉ result=result['charges'].sum() 6. ๊ฒฐ๊ณผ๊ฐ’ ์ œ์ถœ print(result)
12๋ฒˆ ๋ฌธ์ œ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์˜ ์ฒซ ๋ฒˆ์งธ ํ–‰๋ถ€ํ„ฐ ์ˆœ์„œ๋Œ€๋กœ 80%๊นŒ์ง€์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋กœ ์ถ”์ถœ ํ›„ 'total_bedrooms' ๋ณ€์ˆ˜์˜ ๊ฒฐ์ธก๊ฐ’(NA)์„ 'total_bedrooms' ๋ณ€์ˆ˜์˜ ์ค‘์•™๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๊ณ  ๋Œ€์ฒด ์ „์˜ 'total_bedroom' ๋ณ€์ˆ˜ ํ‘œ์ค€ํŽธ์ฐจ ๊ฐ’๊ณผ ๋Œ€์ฒด ํ›„์˜ 'total_bedrooms' ๋ณ€์ˆ˜ ํ‘œ์ค€ํŽธ์ฐจ ๊ฐ’ ์ฐจ์ด์˜ ์ ˆ๋Œ“๊ฐ’์„ ๊ตฌํ•˜์‹œ์˜ค. 12๋ฒˆ ํ’€์ด 1. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ import pandas as pd data=pd.read_csv("housing.csv") 2. 80%-ํ›ˆ๋ จ๋ฐ์ดํ„ฐ๋กœ ์ถ”์ถœ len_data=len(data)*0.8 len_data=int(len_data) #์ถ”์ถœ train=data[:len_data] - len( ) : ๋ฐ์ดํ„ฐ์˜ ํ–‰ ๊ฐœ์ˆ˜๋ฅผ ์ €์žฅ - int( ) : 0.8์„..
*์ž‘์—…ํ˜• ์ œ 1 ์œ ํ˜•์„ ์ œ์ถœํ•  ๋•Œ ์ฃผ์˜์ ์€ ์ค‘๊ฐ„์— ํ‘ธ๋Š” ๊ณผ์ •์—์„œ print๊ฐ€ ์žˆ์—ˆ๋‹ค๋ฉด ๋งˆ์ง€๋ง‰์— ์ œ์ถœ ์ „์—๋Š” "#"์„ ๋ถ™์—ฌ์„œ ์ฃผ์„ ์ฒ˜๋ฆฌ๋ฅผ ํ•ด์ฃผ์‹œ๊ณ  ์ตœ์ข… print๋งŒ ์ถœ๋ ฅ๋˜๋„๋ก ํ•ด์•ผํ•œ๋‹ค๋Š” ๊ฒƒ..! 11๋ฒˆ ๋ฌธ์ œ ๋‹ค์Œ์€ BostonHousing ๋ฐ์ดํ„ฐ ์„ธํŠธ์ด๋‹ค. crim ํ•ญ๋ชฉ์˜ ์ƒ์œ„์—์„œ 10๋ฒˆ์งธ ๊ฐ’(์ฆ‰, ์ƒ์œ„ 10๋ฒˆ์งธ ๊ฐ’ ์ค‘์—์„œ ๊ฐ€์žฅ ์ ์€ ๊ฐ’)์œผ๋กœ ์ƒ์œ„ 10๊ฐœ์˜ ๊ฐ’์„ ๋ณ€ํ™˜ํ•˜๊ณ , age 80 ์ด์ƒ์ธ ๊ฐ’์— ๋Œ€ํ•˜์—ฌ crim ํ‰๊ท ์„ ๊ตฌํ•˜์‹œ์˜ค. 11๋ฒˆ ํ’€์ด 1. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ import pandas as pd data=pd.read_csv("BostonHousing.csv") 2. info() print(data.info()) => 506๊ฐœ์˜ ํ–‰๊ณผ, 15๊ฐœ์˜ ์ปฌ๋Ÿผ์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์ธ ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค 3. ..
์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•์„ ํ’€์–ด๋‚˜๊ฐˆ ๋•Œ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๊ฒƒ๋“ค์„ ์ •๋ฆฌํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค! ๊ทธ๋Ÿผ ์‹œ์ž‘! 1. ์˜ค๋ฆ„์ฐจ์ˆœ, ๋‚ด๋ฆผ์ฐจ์ˆœ ์ •๋ ฌ ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์„ ๋‹ค๋ฃฐ ๋•Œ ์˜ค๋ฆ„์ฐจ์ˆœ์ด๋‚˜ ๋‚ด๋ฆผ์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•ด์•ผํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ž์ฃผ ๋“ฑ์žฅํ•œ๋‹ค. ์˜ค๋ฆ„์ฐจ์ˆœ(์ž‘์€์ˆ˜๋ถ€ํ„ฐ)์œผ๋กœ ์ •๋ ฌํ•˜๋ ค๋ฉด ํŠน๋ณ„ํ•œ ์˜ต์…˜์„ ์ฃผ์ง€์•Š์•„๋„ ๋˜์ง€๋งŒ ๋‚ด๋ฆผ์ฐจ์ˆœ(ํฐ์ˆ˜๋ถ€ํ„ฐ)์œผ๋กœ ์ •๋ ฌํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด ascending=False๋ผ๋Š” ์˜ต์…˜์„ ์ถ”๊ฐ€ํ•ด์ฃผ์–ด์•ผ ํ•œ๋‹ค. # ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„๋ช….sort_values('์ปฌ๋Ÿผ๋ช…', ascending=False, inplace=True) # data์˜ 'CRIM'์„ ๋‚ด๋ฆผ์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•˜์—ฌ๋ผ data.sort_values('CRIM', ascending=False, inplace=True) inplace=True ์˜ต์…˜์„ ์ถ”๊ฐ€ํ•˜๋ฉด data(๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„๋ช…)์ด ์˜ต์…˜์— ๋งž๊ฒŒ ๋ฐ”๋€๋‹ค. ..
์ €๋Š” ์ œ 3ํšŒ ๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ์‹œํ—˜์— ์‘์‹œํ–ˆ๊ณ ! ๊ฒฐ๊ณผ๋Š” ํ•ฉ๊ฒฉ!!! ๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ ์‹œํ—˜์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ๋งŽ์ด ์—†์–ด์„œ ๊ณต๋ถ€ ๋ฐฉ๋ฒ•์„ ์ฐพ์•„๊ฐ€๋Š”๊ฒŒ ๊ฐ€์žฅ ์–ด๋ ค์› ๋˜ ๊ฒƒ ๊ฐ™์•„์š”! ๊ทธ๋ž˜์„œ ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ ์ œ๊ฐ€ ํ•œ ๊ณต๋ถ€๋ฐฉ๋ฒ• ๋ฐ ํŒ์„ ์ ์–ด๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. 1. ๊ต์žฌ ์šฐ์„  ์ €๋Š” ์‚ฐ์—…๊ฒฝ์˜๊ณตํ•™์„ ์ „๊ณตํ•˜๊ณ ์žˆ๊ณ  ๊ทธ๋Ÿฌ๋‹ค๋ณด๋‹ˆ python์œผ๋กœ ๋ฐ์ดํ„ฐ๋ถ„์„์„ ์ž์ฃผ(?) ํ•ด์™”์–ด์„œ ๊ณต๋ถ€๊ธฐ๊ฐ„์„ ๊ทธ๋ ‡๊ฒŒ ์˜ค๋ž˜ ์žก์ง€๋Š” ์•Š์•˜๊ณ  ๋ฐ˜๋ณต์ ์œผ๋กœ ์ฝ”๋“œ๋ฅผ ๋งŽ์ด ์ž‘์„ฑํ•ด๋ณธ ๊ฒƒ ๊ฐ™์•„์š”. ๊ทธ๋ž˜๋„ ์ฝ”๋“œ๋ฅผ ์ „๋ถ€ ์™ธ์›Œ์„œ ์‹œํ—˜์— ์‘์‹œ๋ฅผ ํ•ด์•ผํ•˜๊ณ  ์–ด๋–ค ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์„ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™˜ํ•˜์—ฌ ์‚ฌ์šฉํ•ด์•ผํ• ์ง€ ๋ชจ๋ฅด๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ์–ผ๋งŒํผ python์„ ์•„๋А๋ƒ๋ณด๋‹ค ์ฒ˜์Œ๋ถ€ํ„ฐ ์ฐจ๊ทผ์ฐจ๊ทผ ๊ณต๋ถ€๋ฅผ ํ•ด๋‚˜๊ฐ€์‹œ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค! ์ฑ…์€ ์ด๋ ‡๊ฒŒ ๋ฐ์ดํ„ฐ์บ ํผ์Šค์™€ ์ˆ˜์ œ๋น„ ์ฑ… ๋‘๊ถŒ์„ ๊ตฌ์ž…ํ•˜์˜€๋Š”๋ฐ (์ œ๊ฐ€ ๋‹ค์‹œ..
*pandas ํŒจํ‚ค์ง€๋ฅผ ์ต์ˆ™ํ•˜๊ฒŒ ๋‹ค๋ฃฐ ์ค„ ์•ˆ๋‹ค๋ฉด ๋ฐ์ดํ„ฐ๋ฅผ ๋ถˆ๋Ÿฌ์™€์„œ ์‰ฝ๊ฒŒ ๋ถ„์„์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค! *์ง์ ‘ ํŒŒ์ผ์„ ๋ถˆ๋Ÿฌ์™€์„œ ๋‹ค๋ค„๋ณด๋Š” ๊ฒƒ์ด ์‹ค๋ ฅ์ด ๋Š˜ ์ˆ˜ ์žˆ๋Š” ๊ฐ€์žฅ ๋น ๋ฅธ ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ทธ๋Ÿผ ์‹œ์ž‘! ์šฐ์„  ํŒŒ์ด์ฌ์—์„œ pandas ํŒจํ‚ค์ง€๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์ „ ํ•ญ์ƒ ์„ ์–ธํ•ด์ฃผ์–ด์•ผํ•œ๋‹ค. as pd๋Š” pandas๋ฅผ pd๋กœ ์จ์ฃผ๊ฒ ๋‹ค๋Š” ์˜๋ฏธ์ด๋ฏ€๋กœ ์ดํ›„์—๋Š” pd๋กœ ์จ์ฃผ์–ด ํŒ๋‹ค์Šค๋ฅผ ๊ธฐ๋Šฅ๋“ค์„ ์ด์šฉํ•œ๋‹ค. import pandas as pd 1. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ excelํŒŒ์ผ์„ ๋ถˆ๋Ÿฌ์˜ฌ ๋•Œ๋Š” ํŒŒ์ผ๋ช…์— .xlsx๋ฅผ csvํŒŒ์ผ์„ ๋ถˆ๋Ÿฌ์˜ฌ ๋•Œ๋Š” ํŒŒ์ผ๋ช…์— .csv๊นŒ์ง€ ๋ถ™์—ฌ์„œ ๋ถˆ๋Ÿฌ์™€์•ผํ•œ๋‹ค. # pd.read_excel("ํŒŒ์ผ๋ช….xlsx") # pd.read_csv("ํŒŒ์ผ๋ช….csv") df=pd.read_excel("EX_GrapeData.xlsx") pri..
xod22
'๐Ÿ“š Study/๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก