Data Analyst Story

2022.03.17· 🔍 데이터 분석/04. Data Analysis

상관관계 두 개 그룹간의 상관관계를 분석하기 위한 방법이다. 1. Pearson 2. Spearman 3. Kendall 크게 이러한 방법이 널리 사용되고 있고, 실습으로 피어슨, 스피어만 상관계수 분석을 해보려고 합니다! * 상관관계가 반드시 인과관계를 뜻하는 것은 아니다. 상관관계가 존재하더라도 아무런 인과관계가 없을 수도 있기 때문에 해석에 주의해야한다..! Pearson correlation(피어슨 상관계수) 두 변수 간의 상관관계를 구할 때 가장 많이 활용되는 공식이다. 해당 상관계수는 두 변수간 선형적인 관계가 있는지 판단하는데 사용된다. 피어슨 상관계수가 0에 가까운 수치를 보이더라도 선형적인 관계가 낮다는 것일 뿐 비선형적인 관계로 유의미한 관련이 있을 수도 있다. 수치는 -1~1의 값을 ..

[Python] 등분산 검정

2022.03.16· 🔍 데이터 분석/04. Data Analysis

등분산 검정 : 등분산 검정은 '분산의 동질성 검정'이라고도 한다. 대상 집단의 분산이 같은지 다른지를 통계적으로 검정하는 방법이다. * 분산이 같지 않으면 anova분석을 수행할 수 없기 때문에 선행되어야하는 분석이당..! H0(귀무가설) : 모든 집단의 분산은 차이가 없다. H1(대립가설) : 적어도 하나 이상의 집단의 분산에 차이가 있다. 등분산 검정을 수행하는 함수는 다음 두가지가 있다. -Bartlett.test -levene.test -> 두가지 다 분산의 동질성을 검정하는 방법이지만 Levene 검정과 달리 Bartlett 검정은 표본이 정규성을 만족할 때(즉 정규분포를 띨 때)에만 사용할 수 있는 방법이다. Levene 검정은 표본이 정규성을 만족하든 만족하지 않든 상관없이 사용할 수 있다..

[Python] 카이제곱 검정

2022.03.16· 카테고리 없음

카이제곱 검정(Chi-Squared Test) 카이제곱검정은 범주형 자료 간 차이를 분석하는 통계 방법으로 분할표에서 빈도를 비교하는 것으로 검정을 수행합니다. 카이제곱 검정은 목적에 따라 다음과 같이 세가지로 분류됩니다. - 적합도 검정 - 독립성 검정 - 동질성 검정 1. 적합도 검정 범주형 변수에 대해 실제로 관측된 값과 일어날 것으로 기대하고 있는 값을 비교하는 검정이다. 빈도를 확률로 변환했을 때, 변수의 관찰치에 대한 확률분포가 변수의 기대치에 대한 확률분포와 적합한지를 검정하는 것이다..! H0(귀무가설) : 변수 X의 관측분포와 기대(이론)분포가 동일하다. H1(대립가설) : 변수 X의 관측분포와 기대(이론)분포가 다르다. ~실습~ 검출된 빈도, 예상빈도를 가지고 관측값이 통계적으로 기대값..

[Python] 기초통계 : 분포에 따라 함수 그리기

2022.03.15· 🔍 데이터 분석/04. Data Analysis

정규분포, F분포, 포아송 분포 그래프를 그려보겠습니다! 정규분포 1. 패키지 임포트 import scipy as sp import seaborn as sns import numpy as np import matplotlib as mpl import matplotlib.pylab as plt %matplotlib inline 2. 정규분포 객체 생성 X=sp.stats.norm() 3. plot할 공간 마련 fig, axes=plt.subplots(1, 3, figsize=(12,3)) x_min_999, x_max_999=X.interval(0.999) x999=np.linspace(x_min_999, x_max_999, 1000) 4. plot하기 #PDF : 확률밀도함수 axes[0].plot(x9..

[Python] t-test

2022.03.15· 🔍 데이터 분석/04. Data Analysis

모평균에 대한 유의성 검정으로 t-test 검정을 실시한다. 다음과 같이 크게 세가지의 방법이 있다. 1. 단일표본 t-검정(One-sample t-test) 2. 독립표본 t-검정(Independent-tw-sample t-test) 3. 대응표본 t-검정(Paired-two-sample t-test) 단일표본 t-검정 : 관심있는 연속형 변수의 평균값을 특정 기준값과 비교하여 그 차이가 통계적으로 유의한가를 판단하는 방법. p-value가 유의수준(일반적으로 0.05)보다 작으면, 귀무가설 기각 1. 패키지 임포트 from sklearn.datasets import load_iris import pandas as pd import numpy as np from scipy.stats import tte..

[Python] EDA : Visualizations

2022.03.15· 🔍 데이터 분석/04. Data Analysis

2022.03.14 - [데이터 분석/04. Data Analysis] - [Python] EDA(탐색적 데이터분석)를 통한 변수탐색 [Python] EDA(탐색적 데이터분석)를 통한 변수탐색 sklearn에 내장되어있는 iris데이터를 가지고 기본적인 데이터분석을 해보려고 합니다! 1. 패키지 임포트 및 데이터 불러오기 from sklearn.datasets import load_iris import pandas as pd import numpy as np ir.. xod22.tistory.com 저번 글에 이어서 EDA의 Visualization에 대해 공부해보려고 합니다! 데이터 값의 밀도 살펴보기 cols=iris_dataframe.columns[:4] densityplot=iris_datafra..

[Python] EDA(탐색적 데이터분석)를 통한 변수탐색

2022.03.14· 🔍 데이터 분석/04. Data Analysis

sklearn에 내장되어있는 iris데이터를 가지고 기본적인 데이터분석을 해보려고 합니다! 1. 패키지 임포트 및 데이터 불러오기 from sklearn.datasets import load_iris import pandas as pd import numpy as np iris=load_iris() iris_dataframe=pd.DataFrame(iris.data, columns=iris.feature_names) # y컬럼 추가 iris_dataframe['group']=pd.Series([iris.target_names[k] for k in iris.target], dtype="category") iris_dataframe 2. 통계량 확인 ~평균값~ numeric_only : int/float 열..

[GAIQ: 초보자용 Google 애널리틱스 ] Chapter 4. 기본 캠페인 및 전환 추적

2022.03.14· 📚 Study/구글 애널리틱스

Lecture 1. 맞춤 캠페인을 측정하는 방법 "광고 캠페인은 사용자를 웹사이트로 유도하고 비즈니스를 성장시키는 효과적인 방법입니다. Google 애널리틱스를 사용하여 Google Ads 또는 다른 플랫폼에서 마케팅 캠페인을 추적할 수 있습니다. 다른 플랫폼에서 마케팅 캠페인을 운영하는 경우 Google 애널리틱스에서 캠페인 효과를 추적할 수 있도록 맞춤 캠페인 태그를 마케팅 URL에 수동으로 추가할 수 있습니다." 마케팅 캠페인에 관하여 검색 엔진 결과에 [광고] 로 뜨는 텍스트 광고, 전략적으로 published web에 게시하는 배너 광고, 고객에게 브랜드와 제품 알리는 sns에 올리는 이메일 캠페인의 종류가 있다. -> 일반적으로는 매출과 웹사이트 전환을 늘리기 위해 이러한 마케팅 활동을 조합해..

전체 글

티스토리툴바