728x90
sklearn์ ๋ด์ฅ๋์ด์๋ iris๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ๊ธฐ๋ณธ์ ์ธ ๋ฐ์ดํฐ๋ถ์์ ํด๋ณด๋ ค๊ณ ํฉ๋๋ค!
1. ํจํค์ง ์ํฌํธ ๋ฐ ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
iris=load_iris()
iris_dataframe=pd.DataFrame(iris.data, columns=iris.feature_names)
# y์ปฌ๋ผ ์ถ๊ฐ
iris_dataframe['group']=pd.Series([iris.target_names[k] for k in iris.target], dtype="category")
iris_dataframe
2. ํต๊ณ๋ ํ์ธ
~ํ๊ท ๊ฐ~
numeric_only : int/float ์ด๋ง ํฌํจํ๊ฒ ๋ค๋ ์๋ฏธ
print(iris_dataframe.mean(numeric_only=True))
~์ค์๊ฐ~
print(iris_dataframe.median(numeric_only=True))
~ํ์คํธ์ฐจ~
print(iris_dataframe.std())
~์ต์, ์ต๋ ์ฌ์ด์ ๋ฒ์~
print(iris_dataframe.max(numeric_only=True)-iris_dataframe.min(numeric_only=True))
~์ฌ๋ถ์์~
print(iris_dataframe.quantile([0, .25, .50, .75, 1]))
~๊ธฐ์ ํต๊ณ๋ ํ๋ฒ์ ๋ณด๊ธฐ~
iris_dataframe.describe()
3. Correlations
~๊ณต๋ถ์ฐ~
iris_dataframe.cov()
~์๊ด๊ด๊ณ~
iris_dataframe.corr()
728x90
'๐ ๋ฐ์ดํฐ ๋ถ์ > 04. Data Analysis' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Python] ์๊ด ๊ด๊ณ ๋ถ์ (0) | 2022.03.17 |
---|---|
[Python] ๋ฑ๋ถ์ฐ ๊ฒ์ (0) | 2022.03.16 |
[Python] ๊ธฐ์ดํต๊ณ : ๋ถํฌ์ ๋ฐ๋ผ ํจ์ ๊ทธ๋ฆฌ๊ธฐ (0) | 2022.03.15 |
[Python] t-test (0) | 2022.03.15 |
[Python] EDA : Visualizations (0) | 2022.03.15 |