์ด์์น ์ ๊ฑฐ(familysize) ๋ช
๋ชฉํ ๋ณ์ ๋ณํ ์ํฅ ์๋ ์ปฌ๋ผ ์ ๊ฑฐ ์ถ๊ฐ์ปฌ๋ผ ์์ฑ(TIPI, ๋งํค์๋ฒจ๋ฆฌ์ฆ ์ค์ฝ์ด) VCL ์ ํจ์ฑ ๊ฒ์ฌ(์ ํจํ์ง ์์ ๋จ์ด์ ์๋ตํ row์ญ์ ) ๋๋คํฌ๋ ์คํธ(RandomForestClassifier) 0.7504515876
๐ Study
https://dacon.io/competitions/official/235902/overview/description SW์ค์ฌ๋ํ ๊ณต๋ AI ๊ฒฝ์ง๋ํ โฎ์์ โฏ - DACON ๋ถ์์๊ฐํ ๋ํ ์ฝ๋ ๊ณต์ ๊ฒ์๋ฌผ์ ๋ด์ฉ ํ์ธ ํ ์ข์์(ํฌํ) ๊ฐ๋ฅํฉ๋๋ค. dacon.io

1. ๊ณต๋ถ๋ฐฉ๋ฒ ์ ๋ฆฌ https://www.datamanim.com/dataset/ADPpb/prepare.html ์ค๋น ๋ฐฉ๋ฒ — DataManim ์บ๊ธ์ ์ฝ๋ ๊ณต์ ๋ฐ ๋ค๋ฅธ๋ถ๋ค ์ฝ๋ ํ์ธ www.datamanim.com https://cafe.naver.com/sqlpd/30789 ADP ์ค๊ธฐ ๊ณต๋ถ ์ ๋ฆฌ ์ฌ์ดํธ (ํ์ด์ฌ) ๋ํ๋ฏผ๊ตญ ๋ชจ์์ ์์, ๋ค์ด๋ฒ ์นดํ cafe.naver.com 2. ๊ธฐ์ถ ์ ๋ฆฌ https://lovelydiary.tistory.com/381 ADP) ADP ์ค๊ธฐ ๊ธฐ์ถ๋ฌธ์ ๋ชจ์ (17, 18, 19, 20, 21, 22, 23, 24, 25ํ) ADP ์ค๊ธฐ ๋ฌธ์ ์ง์ ์ฌ๊ธฐ๋ณด๋ค, ํ๊ธฐ ๋ฌธ์ ์ง์ ์๋ ๊ฐ์ข
๋ฐ์ดํฐ๋ง์ด๋ ์์ ๋ค์ ์ง์ ์ฝ๋๋ก ์ง๋ณด๋ ๊ฒ์ด ์ข๋ค๋ ํ๊ธฐ๋ค์ ์ฝ๊ณ , ์ฝ๋ ์์ ๋ฅผ ์..

ADP ์ค๊ธฐ์์๋ ๊ฐ์ ์ฃผ์ง์๊ณ ๋จ์ํ ํต๊ณ๋ถ์์ ์๊ตฌํ๋ ๋ฌธ์ ๊ฐ ๋ง์ด ์ถ์ ๋๋ ๊ฒ ๊ฐ์์ ํต๊ณ๋์ ๊ตฌํด์ ์ ๋ขฐ๊ตฌ๊ฐ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ ๋ฆฌํด๋ณด์์ต๋๋ค! ์์ 1 ๋ฌธ์ ์ด๋ ์ ์ฝํ์ฌ์์ ์๋กญ๊ฒ ์ถ์ํ๋ ค๋ ์์ฝ์ ํจ๋ฅ์ ํ
์คํธํ๊ณ ์๋ค. ๊ทธ๋์ ์์์คํ์ ํตํด ํ๋ณธ 13๊ฐ๋ฅผ ๋ฝ์๋๋ ํ์คํธ์ฐจ๋ 3.2๊ฐ ๋์๋ค๊ณ ํ๋ค. ์ด๋ ์์ฝ์ ๋ชจ๋ถ์ฐ์ ๋ํ 95% ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ตฌํ์์ค. ์์ 1 ํ์ด from scipy.stats import chi2 import numpy as np import pandas as pd #์์ ๋ df=13-1 #ํ์คํธ์ฐจ std=3.2 #chi(์์ ๋) chi_=chi2(df) #t๊ฐ t_025=chi_.ppf(0.025) t_975=chi_.ppf(0.975) - ์ ๋ขฐ๊ตฌ๊ฐ L_= round..

์ด๋ฒ์ ์ฒซ ADP ์ค๊ธฐ์ํ์ ์์ํ๊ณ ์๋๋ฐ์! 4์๊ฐ์ด..๊ธธ์ค ์์๋๋ฐ ์ ๋ง ์์๊ฐ์ ์ง๋๊ฐ๋๋ผ๊ตฌ์.. ์ค๊ธฐ์ํ ํ๊ธฐ๊ฐ ์๊ธฐ๋ ํ๊ณ ์๋๋ผ๋ ์ค๋๋ ํ๊ธฐ๋ผ์ ์ต๊ทผ ์ํ ๋ฐฉ์์ ๊ฐ๋จํ๊ฒ ์ ์ด๋ณด๋ ค๊ณ ํฉ๋๋ค. ์ํ๋ฐฉ์ 1. ์๋ด๋ ํ์ด์ง ์ ์ ๋ฐ ๋ก๊ทธ์ธ(์์ด๋, ๋น๋ฒ์ ์ปดํจํฐ์ ๋ถ์ฐฉ๋์ด์์) 2. ์ํ์์ ์ ์ฐ์ตํ๊ฒฝ์ ์ ์ํด๋ณผ ์ ์์ 3. ์ฐ์ตํ๊ฒฝ Python์ผ๋ก ๋ค์ด๊ฐ์๋ฉด ์ฃผํผํฐํ๊ฒฝ์ด ๋ฐ๋ก ๋ณด์ด๊ณ ์ฐ์ต์ฝ๋๋ฅผ ์์ฑํด๋ณด์ค ์ ์์ต๋๋ค. 4. ์ํ์๊ฐ์ด ์์๋๋ฉด ํ ํ์ผ์ ๋ชจ๋ ๋ฌธ์ ๋ต์์ ์์ฑํด์ฃผ์๋ฉด๋๊ณ ์ฝ๋์์ฑ ์ธ์๋ Markdown ํ์์ผ๋ก ๋ต์์ ์์ฑํด์ฃผ์๋ฉด ๋ฉ๋๋ค. *์ธ๋ถ๋ฌธ์ ๊ฐ ์์์ด์์ผ๋ก ๊ต์ฅํ ๋ง์ต๋๋ค. ์๊ฐ์ด ์ค๋๊ฑธ๋ฆฌ๋๋ฐ ๋ฐฐ์ ์ด ๋ฎ์ ๋ฌธ์ ๋ ์์ผ๋ฏ๋ก ์๊ฐ๋ถ๋ฐฐ ์ ํ์
์ ํธ์
์ผ ๋ฉ๋๋ค! 5. ์ ..

- loc : ์ธ๋ฑ์ค ์ด๋ฆ์ ๊ธฐ์ค์ผ๋ก ์ถ์ถ(์ฌ๋์ด ์ฝ์ ์ ์๋ label๊ฐ์ผ๋ก ํน์ ๊ฐ๋ค์ ๊ณจ๋ผ์ค๋ ๋ฐฉ๋ฒ) - iloc : ๋ฐ์ดํฐ ํ๋ ์์ ํ์ด๋ ์ปฌ๋ผ์ ์ธ๋ฑ์ค ๊ฐ์ผ๋ก ์ ๊ทผํ๋ ๋ฐฉ๋ฒ loc ์์ df.loc[ํ ์ธ๋ฑ์ฑ ๊ฐ, ์ด ์ธ๋ฑ์ฑ ๊ฐ] 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd customer_m=pd.read_csv("customer_master.csv") customer_m 2. ๋ ์ด๋ธ ์ด๋ฆ์ด "0"์ธ ํ ์ถ์ถ customer_m.loc[0] ๋ ์ด๋ธ ์ด๋ฆ์ด "0"์ธ ํ์ ์ถ์ถํ ๊ฒ์ ํ์ธ 3. ๋ ์ด๋ธ ์ด๋ฆ์ด "1"์ธ ํ ์ถ์ถ customer_m.loc[1] ๋ ์ด๋ธ ์ด๋ฆ์ด "1"์ธ ํ์ ์ถ์ถํ ๊ฒ์ ํ์ธ 4. ๋ ์ด๋ธ ์ด๋ฆ์ด "customer_id"์ธ ์ด ์ถ์ถ customer_m.lo..

14๋ฒ ๋ค์์ ๊ธฐ์
์์ ์์ฑ๋ ์ฃผ๋ฌธ ๋ฐ์ดํฐ์ด๋ค. 80,009๊ฑด์ ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ ์ ๋์ฐฉ๊ฐ๋ฅ ์ฌ๋ถ ์์ธก ๋ชจ๋ธ์ ๋ง๋ค๊ณ , ํ๊ฐ ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ ์๋์ฐฉ ๊ฐ๋ฅ ์ฌ๋ถ ์์ธก ํ๋ฅ ์ ๊ธฐ๋กํ csv๋ฅผ ์์ฑํ์์ค. ํ์ด 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd data=pd.read_csv("Train.csv") 2. ๋ฐ์ดํฐ ํ์
ํ์ธํ๊ธฐ print(data.info()) 3. x,y ์ปฌ๋ผ ๋๋ ์ ์ ์ฅ X=data.drop('Reached.on.Time_Y.N', axis=1) y=data[['Reached.on.Time_Y.N']] 4. ๋๋ฏธ ๋ณํ X=pd.get_dummies(X) 5. train/test ๋ถ๋ฆฌ from sklearn.model_selection import train_test_..

13๋ฒ ๋ฌธ์ ๋ค์์ Insurance epdlxj tpxmdlek. Charges ํญ๋ชฉ์์ ์ด์๊ฐ์ ํฉ์ ๊ตฌํ์์ค. (์ด์๊ฐ์ ํ๊ท ์์ 1.5 ํ์คํธ์ฐจ ์ด์์ธ ๊ฐ) ํ์ด 1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ import pandas as pd data=pd.read_csv("insurance.csv") 2. ๋ฐ์ดํฐ ํ์
ํ์ธ print(data.info()) 3. ํ๊ท , ํ์คํธ์ฐจ ์ ์ฅ mean=data['charges'].mean() std=data['charges'].std() 4. ์ด์๊ฐ์ธ ํ๋ง ์ ์ฅ result=data[data['charges']>=mean+1.5*std] 5. ํฉ result=result['charges'].sum() 6. ๊ฒฐ๊ณผ๊ฐ ์ ์ถ print(result)