빅데이터분석기사

- loc : 인덱스 이름을 기준으로 추출(사람이 읽을 수 있는 label값으로 특정 값들을 골라오는 방법) - iloc : 데이터 프레임의 행이나 컬럼의 인덱스 값으로 접근하는 방법 loc 예시 df.loc[행 인덱싱 값, 열 인덱싱 값] 1. 데이터 불러오기 import pandas as pd customer_m=pd.read_csv("customer_master.csv") customer_m 2. 레이블 이름이 "0"인 행 추출 customer_m.loc[0] 레이블 이름이 "0"인 행을 추출한 것을 확인 3. 레이블 이름이 "1"인 행 추출 customer_m.loc[1] 레이블 이름이 "1"인 행을 추출한 것을 확인 4. 레이블 이름이 "customer_id"인 열 추출 customer_m.lo..
14번 다음은 기업에서 생성된 주문 데이터이다. 80,009건의 데이터에 대하여 정시 도착가능 여부 예측 모델을 만들고, 평가 데이터에 대하여 정시도착 가능 여부 예측 확률을 기록한 csv를 생성하시오. 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("Train.csv") 2. 데이터 타입 확인하기 print(data.info()) 3. x,y 컬럼 나눠서 저장 X=data.drop('Reached.on.Time_Y.N', axis=1) y=data[['Reached.on.Time_Y.N']] 4. 더미 변환 X=pd.get_dummies(X) 5. train/test 분리 from sklearn.model_selection import train_test_..
13번 문제 다음은 Insurance epdlxj tpxmdlek. Charges 항목에서 이상값의 합을 구하시오. (이상값은 평균에서 1.5 표준편차 이상인 값) 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("insurance.csv") 2. 데이터 타입 확인 print(data.info()) 3. 평균, 표준편차 저장 mean=data['charges'].mean() std=data['charges'].std() 4. 이상값인 행만 저장 result=data[data['charges']>=mean+1.5*std] 5. 합 result=result['charges'].sum() 6. 결과값 제출 print(result)
12번 문제 주어진 데이터의 첫 번째 행부터 순서대로 80%까지의 데이터를 훈련 데이터로 추출 후 'total_bedrooms' 변수의 결측값(NA)을 'total_bedrooms' 변수의 중앙값으로 대체하고 대체 전의 'total_bedroom' 변수 표준편차 값과 대체 후의 'total_bedrooms' 변수 표준편차 값 차이의 절댓값을 구하시오. 12번 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("housing.csv") 2. 80%-훈련데이터로 추출 len_data=len(data)*0.8 len_data=int(len_data) #추출 train=data[:len_data] - len( ) : 데이터의 행 개수를 저장 - int( ) : 0.8을..
*작업형 제 1 유형을 제출할 때 주의점은 중간에 푸는 과정에서 print가 있었다면 마지막에 제출 전에는 "#"을 붙여서 주석 처리를 해주시고 최종 print만 출력되도록 해야한다는 것..! 11번 문제 다음은 BostonHousing 데이터 세트이다. crim 항목의 상위에서 10번째 값(즉, 상위 10번째 값 중에서 가장 적은 값)으로 상위 10개의 값을 변환하고, age 80 이상인 값에 대하여 crim 평균을 구하시오. 11번 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("BostonHousing.csv") 2. info() print(data.info()) => 506개의 행과, 15개의 컬럼으로 이루어진 데이터 프레임인 것을 확인했습니다 3. ..
작업형 제 1유형을 풀어나갈 때 자주 등장하는 것들을 정리해보았습니다! 그럼 시작! 1. 오름차순, 내림차순 정렬 데이터프레임을 다룰 때 오름차순이나 내림차순으로 정렬해야하는 경우가 자주 등장한다. 오름차순(작은수부터)으로 정렬하려면 특별한 옵션을 주지않아도 되지만 내림차순(큰수부터)으로 정렬하고 싶다면 ascending=False라는 옵션을 추가해주어야 한다. # 데이터프레임명.sort_values('컬럼명', ascending=False, inplace=True) # data의 'CRIM'을 내림차순으로 정렬하여라 data.sort_values('CRIM', ascending=False, inplace=True) inplace=True 옵션을 추가하면 data(데이터프레임명)이 옵션에 맞게 바뀐다. ..
저는 제 3회 빅데이터분석기사 시험에 응시했고! 결과는 합격!!! 빅데이터분석기사 실기 시험에 대한 정보가 많이 없어서 공부 방법을 찾아가는게 가장 어려웠던 것 같아요! 그래서 이번 포스팅에서 제가 한 공부방법 및 팁을 적어보려고 합니다. 1. 교재 우선 저는 산업경영공학을 전공하고있고 그러다보니 python으로 데이터분석을 자주(?) 해왔어서 공부기간을 그렇게 오래 잡지는 않았고 반복적으로 코드를 많이 작성해본 것 같아요. 그래도 코드를 전부 외워서 시험에 응시를 해야하고 어떤 데이터프레임을 어떻게 변환하여 사용해야할지 모르는 것이기 때문에 얼만큼 python을 아느냐보다 처음부터 차근차근 공부를 해나가시는 것이 중요할 것 같습니다! 책은 이렇게 데이터캠퍼스와 수제비 책 두권을 구입하였는데 (제가 다시..
xod22
'빅데이터분석기사' 태그의 글 목록