'📚 Study' 카테고리의 글 목록 (2 Page)

2022.08.15· 📚 Study/프로젝트

이상치 제거(familysize) 명목형 변수 변환 영향 없는 컬럼 제거 추가컬럼 생성(TIPI, 마키아벨리즘 스코어) VCL 유효성 검사(유효하지 않은 단어에 응답한 row삭제) 랜덤포레스트(RandomForestClassifier) 0.7504515876

[DACON] SW중심대학 공동 AI 경진대회 도전!

2022.08.13· 📚 Study/프로젝트

https://dacon.io/competitions/official/235902/overview/description SW중심대학 공동 AI 경진대회 ❮예선❯ - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io

[ADP] 실기 공부 참고 링크

2022.07.22· 📚 Study/ADP 실기

1. 공부방법 정리 https://www.datamanim.com/dataset/ADPpb/prepare.html 준비 방법 — DataManim 캐글에 코드 공유 및 다른분들 코드 확인 www.datamanim.com https://cafe.naver.com/sqlpd/30789 ADP 실기 공부 정리 사이트 (파이썬) 대한민국 모임의 시작, 네이버 카페 cafe.naver.com 2. 기출 정리 https://lovelydiary.tistory.com/381 ADP) ADP 실기 기출문제 모음 (17, 18, 19, 20, 21, 22, 23, 24, 25회) ADP 실기 문제집을 사기보다, 필기 문제집에 있는 각종 데이터마이닝 예제들을 직접 코드로 짜보는 것이 좋다는 후기들을 읽고, 코드 예제를 작..

[ADP] 표본수(n), 표준편차(s) 값으로 모분산 신뢰구간 구하기

2022.07.14· 📚 Study/ADP 실기

ADP 실기에서는 값을 주지않고 단순한 통계분석을 요구하는 문제가 많이 출제되는 것 같아서 통계량을 구해서 신뢰구간 구하는 방법에 대해 정리해보았습니다! 예제1 문제 어느 제약회사에서 새롭게 출시하려는 알약의 효능을 테스트하고 있다. 그래서 임상실험을 통해 표본 13개를 뽑았더니 표준편차는 3.2가 나왔다고 한다. 이때 알약의 모분산에 대한 95% 신뢰구간을 구하시오. 예제1 풀이 from scipy.stats import chi2 import numpy as np import pandas as pd #자유도 df=13-1 #표준편차 std=3.2 #chi(자유도) chi_=chi2(df) #t값 t_025=chi_.ppf(0.025) t_975=chi_.ppf(0.975) - 신뢰구간 L_= round..

[ADP] ADP 25회 실기시험 후기 및 문제 복기

2022.07.13· 📚 Study/ADP 실기

이번에 첫 ADP 실기시험을 응시하고 왔는데요! 4시간이..길줄 알았는데 정말 순식간에 지나가더라구요.. 실기시험 후기가 없기도 하고 있더라도 오래된 후기라서 최근 시험 방식을 간단하게 적어보려고 합니다. 시험방식 1. 안내된 페이지 접속 및 로그인(아이디, 비번은 컴퓨터에 부착되어있음) 2. 시험시작 전 연습환경에 접속해볼 수 있음 3. 연습환경 Python으로 들어가시면 주피터환경이 바로 보이고 연습코드를 작성해보실 수 있습니다. 4. 시험시간이 시작되면 한 파일에 모든 문제 답안을 작성해주시면되고 코드작성 외에는 Markdown 형식으로 답안을 작성해주시면 됩니다. *세부문제가 상상이상으로 굉장히 많습니다. 시간이 오래걸리는데 배점이 낮은 문제도 있으므로 시간분배 잘 하셔서 푸셔야 됩니다! 5. 제..

[pandas] loc, iloc차이

2022.03.25· 📚 Study/빅데이터 분석기사 실기

- loc : 인덱스 이름을 기준으로 추출(사람이 읽을 수 있는 label값으로 특정 값들을 골라오는 방법) - iloc : 데이터 프레임의 행이나 컬럼의 인덱스 값으로 접근하는 방법 loc 예시 df.loc[행 인덱싱 값, 열 인덱싱 값] 1. 데이터 불러오기 import pandas as pd customer_m=pd.read_csv("customer_master.csv") customer_m 2. 레이블 이름이 "0"인 행 추출 customer_m.loc[0] 레이블 이름이 "0"인 행을 추출한 것을 확인 3. 레이블 이름이 "1"인 행 추출 customer_m.loc[1] 레이블 이름이 "1"인 행을 추출한 것을 확인 4. 레이블 이름이 "customer_id"인 열 추출 customer_m.lo..

[빅분기] 2021년 실기 기출 풀이-작업형 제 2유형(14번)

2022.03.23· 📚 Study/빅데이터 분석기사 실기

14번 다음은 기업에서 생성된 주문 데이터이다. 80,009건의 데이터에 대하여 정시 도착가능 여부 예측 모델을 만들고, 평가 데이터에 대하여 정시도착 가능 여부 예측 확률을 기록한 csv를 생성하시오. 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("Train.csv") 2. 데이터 타입 확인하기 print(data.info()) 3. x,y 컬럼 나눠서 저장 X=data.drop('Reached.on.Time_Y.N', axis=1) y=data[['Reached.on.Time_Y.N']] 4. 더미 변환 X=pd.get_dummies(X) 5. train/test 분리 from sklearn.model_selection import train_test_..

[빅분기] 2021년 실기 기출 풀이-작업형 제 1유형(13번)

2022.03.22· 📚 Study/빅데이터 분석기사 실기

13번 문제 다음은 Insurance epdlxj tpxmdlek. Charges 항목에서 이상값의 합을 구하시오. (이상값은 평균에서 1.5 표준편차 이상인 값) 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("insurance.csv") 2. 데이터 타입 확인 print(data.info()) 3. 평균, 표준편차 저장 mean=data['charges'].mean() std=data['charges'].std() 4. 이상값인 행만 저장 result=data[data['charges']>=mean+1.5*std] 5. 합 result=result['charges'].sum() 6. 결과값 제출 print(result)

티스토리툴바