13번 문제 다음은 Insurance epdlxj tpxmdlek. Charges 항목에서 이상값의 합을 구하시오. (이상값은 평균에서 1.5 표준편차 이상인 값) 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("insurance.csv") 2. 데이터 타입 확인 print(data.info()) 3. 평균, 표준편차 저장 mean=data['charges'].mean() std=data['charges'].std() 4. 이상값인 행만 저장 result=data[data['charges']>=mean+1.5*std] 5. 합 result=result['charges'].sum() 6. 결과값 제출 print(result)
12번 문제 주어진 데이터의 첫 번째 행부터 순서대로 80%까지의 데이터를 훈련 데이터로 추출 후 'total_bedrooms' 변수의 결측값(NA)을 'total_bedrooms' 변수의 중앙값으로 대체하고 대체 전의 'total_bedroom' 변수 표준편차 값과 대체 후의 'total_bedrooms' 변수 표준편차 값 차이의 절댓값을 구하시오. 12번 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("housing.csv") 2. 80%-훈련데이터로 추출 len_data=len(data)*0.8 len_data=int(len_data) #추출 train=data[:len_data] - len( ) : 데이터의 행 개수를 저장 - int( ) : 0.8을..
*작업형 제 1 유형을 제출할 때 주의점은 중간에 푸는 과정에서 print가 있었다면 마지막에 제출 전에는 "#"을 붙여서 주석 처리를 해주시고 최종 print만 출력되도록 해야한다는 것..! 11번 문제 다음은 BostonHousing 데이터 세트이다. crim 항목의 상위에서 10번째 값(즉, 상위 10번째 값 중에서 가장 적은 값)으로 상위 10개의 값을 변환하고, age 80 이상인 값에 대하여 crim 평균을 구하시오. 11번 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("BostonHousing.csv") 2. info() print(data.info()) => 506개의 행과, 15개의 컬럼으로 이루어진 데이터 프레임인 것을 확인했습니다 3. ..
작업형 제 1유형을 풀어나갈 때 자주 등장하는 것들을 정리해보았습니다! 그럼 시작! 1. 오름차순, 내림차순 정렬 데이터프레임을 다룰 때 오름차순이나 내림차순으로 정렬해야하는 경우가 자주 등장한다. 오름차순(작은수부터)으로 정렬하려면 특별한 옵션을 주지않아도 되지만 내림차순(큰수부터)으로 정렬하고 싶다면 ascending=False라는 옵션을 추가해주어야 한다. # 데이터프레임명.sort_values('컬럼명', ascending=False, inplace=True) # data의 'CRIM'을 내림차순으로 정렬하여라 data.sort_values('CRIM', ascending=False, inplace=True) inplace=True 옵션을 추가하면 data(데이터프레임명)이 옵션에 맞게 바뀐다. ..