Python

2022.03.24 - [데이터 분석/04. Data Analysis] - [Python] 서울 종합병원 분포 데이터 분석 [Python] 서울 종합병원 분포 데이터 분석 데이터 소상공인시장진흥공단_상가(상권)정보_의료기관_20190930 상가(상권)정보 의료기관을 나타내는 데이터입니다. 의료기관의 상호명, 주소, 상권업종 중분류명, 소분류명을 항목으로 제공합 xod22.tistory.com 저번 포스팅에서 서울 종합병원은 고르게 분포되어 있을까에 대해 분석해보았습니다! 이번 글에서는 원하는 "시도별" 의료기관 개수를 시각화하는 것에 대해 코드를 정리해보려고 합니당~_~ 특정지역 데이터 추출 1. 패키지 임포트 및 데이터 불러오기 : 데이터는 저번 글에서 사용한 데이터와 동일합니다.! import pan..
- loc : 인덱스 이름을 기준으로 추출(사람이 읽을 수 있는 label값으로 특정 값들을 골라오는 방법) - iloc : 데이터 프레임의 행이나 컬럼의 인덱스 값으로 접근하는 방법 loc 예시 df.loc[행 인덱싱 값, 열 인덱싱 값] 1. 데이터 불러오기 import pandas as pd customer_m=pd.read_csv("customer_master.csv") customer_m 2. 레이블 이름이 "0"인 행 추출 customer_m.loc[0] 레이블 이름이 "0"인 행을 추출한 것을 확인 3. 레이블 이름이 "1"인 행 추출 customer_m.loc[1] 레이블 이름이 "1"인 행을 추출한 것을 확인 4. 레이블 이름이 "customer_id"인 열 추출 customer_m.lo..
데이터 소상공인시장진흥공단_상가(상권)정보_의료기관_20190930 상가(상권)정보 의료기관을 나타내는 데이터입니다. 의료기관의 상호명, 주소, 상권업종 중분류명, 소분류명을 항목으로 제공합니다. www.data.go.kr ->링크에서 데이터 다운 가설설정 서울의 종합병원은 고르게 분포되어 있을까? 1. 데이터 불러오기 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt #그래프가 노트북 안에 보이게 하기 위해 %matplotlib inline #한글 폰트 설정 plt.rc('font', family='Malgun Gothic') #마이너스 기호가 표시되도록 해줌 plt.rc('axes', unicode_minus=False..
2022.03.23 - [데이터 분석/01. Data Collection] - [크롤링] BeautifulSoup을 활용한 네이버 영화 평점 크롤링 [크롤링] BeautifulSoup을 활용한 네이버 영화 평점 크롤링 네이버 영화 평점 - https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&tg=0&date=20220323 랭킹 : 네이버 영화 영화, 영화인, 예매, 박스오피스 랭킹 정보 제공 movie.naver.com - 네이버 영화에서.. xod22.tistory.com 이번 포스팅은 크롤링 해온 네이버 영화 평점 데이터를 preprocessing 해보려고 합니다! Data Preprocessing 1. 데이터 불러오기 import numpy ..
네이버 영화 평점 - https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&tg=0&date=20220323 랭킹 : 네이버 영화 영화, 영화인, 예매, 박스오피스 랭킹 정보 제공 movie.naver.com - 네이버 영화에서 영화 평점을 크롤링 해보려고 합니다. - 학습용 서버에 부하되지 않을정도만 크롤링. 네이버 영화 페이지는 매일 다음과 같이 영화의 순위가 매겨지고 평점이 표시되는 화면이 나타난다. 크롤링 1. URL 보기 'https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&tg=0&date=20220323' - URL 맨 뒤에 20220323은 date형식, 날짜를 조금씩 바꾸면 다르 ..
14번 다음은 기업에서 생성된 주문 데이터이다. 80,009건의 데이터에 대하여 정시 도착가능 여부 예측 모델을 만들고, 평가 데이터에 대하여 정시도착 가능 여부 예측 확률을 기록한 csv를 생성하시오. 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("Train.csv") 2. 데이터 타입 확인하기 print(data.info()) 3. x,y 컬럼 나눠서 저장 X=data.drop('Reached.on.Time_Y.N', axis=1) y=data[['Reached.on.Time_Y.N']] 4. 더미 변환 X=pd.get_dummies(X) 5. train/test 분리 from sklearn.model_selection import train_test_..
13번 문제 다음은 Insurance epdlxj tpxmdlek. Charges 항목에서 이상값의 합을 구하시오. (이상값은 평균에서 1.5 표준편차 이상인 값) 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("insurance.csv") 2. 데이터 타입 확인 print(data.info()) 3. 평균, 표준편차 저장 mean=data['charges'].mean() std=data['charges'].std() 4. 이상값인 행만 저장 result=data[data['charges']>=mean+1.5*std] 5. 합 result=result['charges'].sum() 6. 결과값 제출 print(result)
12번 문제 주어진 데이터의 첫 번째 행부터 순서대로 80%까지의 데이터를 훈련 데이터로 추출 후 'total_bedrooms' 변수의 결측값(NA)을 'total_bedrooms' 변수의 중앙값으로 대체하고 대체 전의 'total_bedroom' 변수 표준편차 값과 대체 후의 'total_bedrooms' 변수 표준편차 값 차이의 절댓값을 구하시오. 12번 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("housing.csv") 2. 80%-훈련데이터로 추출 len_data=len(data)*0.8 len_data=int(len_data) #추출 train=data[:len_data] - len( ) : 데이터의 행 개수를 저장 - int( ) : 0.8을..
xod22
'Python' 태그의 글 목록 (2 Page)