14번 다음은 기업에서 생성된 주문 데이터이다. 80,009건의 데이터에 대하여 정시 도착가능 여부 예측 모델을 만들고, 평가 데이터에 대하여 정시도착 가능 여부 예측 확률을 기록한 csv를 생성하시오. 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("Train.csv") 2. 데이터 타입 확인하기 print(data.info()) 3. x,y 컬럼 나눠서 저장 X=data.drop('Reached.on.Time_Y.N', axis=1) y=data[['Reached.on.Time_Y.N']] 4. 더미 변환 X=pd.get_dummies(X) 5. train/test 분리 from sklearn.model_selection import train_test_..
13번 문제 다음은 Insurance epdlxj tpxmdlek. Charges 항목에서 이상값의 합을 구하시오. (이상값은 평균에서 1.5 표준편차 이상인 값) 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("insurance.csv") 2. 데이터 타입 확인 print(data.info()) 3. 평균, 표준편차 저장 mean=data['charges'].mean() std=data['charges'].std() 4. 이상값인 행만 저장 result=data[data['charges']>=mean+1.5*std] 5. 합 result=result['charges'].sum() 6. 결과값 제출 print(result)
12번 문제 주어진 데이터의 첫 번째 행부터 순서대로 80%까지의 데이터를 훈련 데이터로 추출 후 'total_bedrooms' 변수의 결측값(NA)을 'total_bedrooms' 변수의 중앙값으로 대체하고 대체 전의 'total_bedroom' 변수 표준편차 값과 대체 후의 'total_bedrooms' 변수 표준편차 값 차이의 절댓값을 구하시오. 12번 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("housing.csv") 2. 80%-훈련데이터로 추출 len_data=len(data)*0.8 len_data=int(len_data) #추출 train=data[:len_data] - len( ) : 데이터의 행 개수를 저장 - int( ) : 0.8을..
*작업형 제 1 유형을 제출할 때 주의점은 중간에 푸는 과정에서 print가 있었다면 마지막에 제출 전에는 "#"을 붙여서 주석 처리를 해주시고 최종 print만 출력되도록 해야한다는 것..! 11번 문제 다음은 BostonHousing 데이터 세트이다. crim 항목의 상위에서 10번째 값(즉, 상위 10번째 값 중에서 가장 적은 값)으로 상위 10개의 값을 변환하고, age 80 이상인 값에 대하여 crim 평균을 구하시오. 11번 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("BostonHousing.csv") 2. info() print(data.info()) => 506개의 행과, 15개의 컬럼으로 이루어진 데이터 프레임인 것을 확인했습니다 3. ..