*작업형 제 1 유형을 제출할 때 주의점은 중간에 푸는 과정에서 print가 있었다면 마지막에 제출 전에는 "#"을 붙여서 주석 처리를 해주시고 최종 print만 출력되도록 해야한다는 것..! 11번 문제 다음은 BostonHousing 데이터 세트이다. crim 항목의 상위에서 10번째 값(즉, 상위 10번째 값 중에서 가장 적은 값)으로 상위 10개의 값을 변환하고, age 80 이상인 값에 대하여 crim 평균을 구하시오. 11번 풀이 1. 데이터 불러오기 import pandas as pd data=pd.read_csv("BostonHousing.csv") 2. info() print(data.info()) => 506개의 행과, 15개의 컬럼으로 이루어진 데이터 프레임인 것을 확인했습니다 3. ..
코드 from konlpy.tag import Twitter twitter=Twitter() 오류 UserWarning: "Twitter" has changed to "Okt" since KoNLPy v0.4.5. warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.') 위의 코드를 실행하면 Twitter는 KoNLPy 버전 0.4.5.부터 Okt로 바뀌었다는 warning이 나온다! 사실 warning이기 때문에 코드는 실행되긴 하지만 Okt패키지를 실행해주고 Twitter대신 Okt패키지를 사용해서 분석하면 경고문이 발생하지 않는다. 해결 from konlpy.tag import Okt okt = Okt() Okt로 패키지를 바꾸고 나서도 다음 코드가..
2022.03.18 - [데이터 분석/04. Data Analysis] - [통계적 모델링] 시계열 분석와 분해 [통계적 모델링] 시계열 분석 항상 시계열 분석은 어렵고 복잡하다는 생각에 코드를 하나하나 이해하면서 작성하기 힘들었는데 하나하나 찾아보면서 공부를 해보려고 합니다. 시계열 데이터란 시계열 데이터는 일정한 시간 xod22.tistory.com 2022.03.19 - [데이터 분석/04. Data Analysis] - [통계적 모델링] 시계열 분석 - 정상성(stationary)과 차분 [통계적 모델링] 시계열 분석 - 정상성(stationary)과 차분 2022.03.18 - [데이터 분석/04. Data Analysis] - [통계적 모델링] 시계열 분석 [통계적 모델링] 시계열 분석 항상 ..
2022.03.19 - [데이터 분석/04. Data Analysis] - [통계적 모델링] 시계열 분석 - 정상성(stationary)과 차분 [통계적 모델링] 시계열 분석 - 정상성(stationary)과 차분 2022.03.18 - [데이터 분석/04. Data Analysis] - [통계적 모델링] 시계열 분석 [통계적 모델링] 시계열 분석 항상 시계열 분석은 어렵고 복잡하다는 생각에 코드를 하나하나 이해하면서 작성하기 힘들었 xod22.tistory.com 저번 글에서는 정상성과 차분에 대해서 공부를 해봤습니다. 오늘은 이어서 시계열 분석을 할때 결측값을 처리하는 방법과 trend(추세)를 부드럽게 보기위한 방법인 Smoothing에 대해 공부해보려고 합니당! 결측값 처리 : 때로 시계열 데이터..
한글 NLP 처리의 어려움 영어의 경우 띄어쓰기를 잘못하면 잘못된 단어 또는 없는 단어로 인식됩니다. 하지만 한글의 경우, '아버지가 방에 들어가신다'를 잘못 띄어쓰기하면 '아버지 가방에 들어가신다'가 되어 의미가 왜곡되게 됩니다. 또한 주어나 목적어를 위해 추가되는 조사의 경우 전처리를 할때 제거하기가 까다롭습니다. '너희 집은 어디 있니?'에서 '집은'의 '은'이 뜻하는 것이 조사인지 아니면 금은동할때 은인지 구분하기가 어렵습니다. 띄어쓰기가 잘못돼어 '집 은'으로 쓴 경우 더욱 그렇습니다..! 이러한 문제들 때문에 한글 언어 처리가 라틴어 처리보다 어렵다고 합니다. 실습 KoNLPy는 파이썬의 대표적인 한글 형태소 패키지입니다. KoNLPy는 자바 형태소 분석 엔진을 래퍼한 것이기 때문에 Java설..
2022.03.18 - [데이터 분석/04. Data Analysis] - [통계적 모델링] 시계열 분석 [통계적 모델링] 시계열 분석 항상 시계열 분석은 어렵고 복잡하다는 생각에 코드를 하나하나 이해하면서 작성하기 힘들었는데 하나하나 찾아보면서 공부를 해보려고 합니다. 시계열 데이터란 시계열 데이터는 일정한 시간 xod22.tistory.com 저번 글에 이어서 정상성과 차분에 대해서 공부해보려고 합니다! 정상성(stationary)과 비정상성(non-stationary) : 추세나 계절성이 있는 시계열은 정상성을 나타내는 시계열이 아니다. 추세와 계절성은 서로 다른 시간에 시계열의 값에 영향을 줄 것이기 때문! 1. 패키지 임포트 from statsmodels.tsa.stattools import a..
항상 시계열 분석은 어렵고 복잡하다는 생각에 코드를 하나하나 이해하면서 작성하기 힘들었는데 하나하나 찾아보면서 공부를 해보려고 합니다. 시계열 데이터란 시계열 데이터는 일정한 시간 간격으로 순차적으로 기록된 관측 데이터다. 관측 주기에따라, 시계열 데이터는 일반적으로 시간별, 일별, 주별, 월별, 분기별, 년도별로 구분된다. 시계열 분석을 데이터를 분석(예측)하기 전에 수행하는 준비단계다. 시계열 분석에서는 데이터의 내재된 속성에 대해 다양한 각도로 이해하는 것이 필요하다. 의미있고 정확한 예측을 하기 위해서 충분한 정보를 확보하는 것이 필요하다. 실습 - 데이터 : 호주 당뇨병 치료약(anti-diabetic) 월별 Sales 데이터 사용 1. 패키지 임포트 from dateutil.parser imp..
선형회귀 개요 1. 패키지 임포트 import statsmodels.api as sm import statsmodels.formula.api as smf import statsmodels.graphics.api as smg import patsy import matplotlib.pyplot as plt import numpy as np import pandas as pd from scipy import stats 2. 데이터 생성 y=np.array([1,2,3,4,5]) x1=np.array([6,7,8,9,10]) x2=np.array([11,12,13,14,15]) data={"y":y, "x1":x1, "x2":x2} 3. 모델 생성 y, X=patsy.dmatrices("y~1+x1+x2+x1:..