[๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(12๋ฒˆ)

2022. 3. 22. 12:41ยท ๐Ÿ“š Study/๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ
728x90
12๋ฒˆ ๋ฌธ์ œ

housing.csv
1.36MB

์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์˜ ์ฒซ ๋ฒˆ์งธ ํ–‰๋ถ€ํ„ฐ ์ˆœ์„œ๋Œ€๋กœ 80%๊นŒ์ง€์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋กœ ์ถ”์ถœ ํ›„

'total_bedrooms' ๋ณ€์ˆ˜์˜ ๊ฒฐ์ธก๊ฐ’(NA)์„ 'total_bedrooms' ๋ณ€์ˆ˜์˜ ์ค‘์•™๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๊ณ 

๋Œ€์ฒด ์ „์˜ 'total_bedroom' ๋ณ€์ˆ˜ ํ‘œ์ค€ํŽธ์ฐจ ๊ฐ’๊ณผ ๋Œ€์ฒด ํ›„์˜ 'total_bedrooms' ๋ณ€์ˆ˜ ํ‘œ์ค€ํŽธ์ฐจ ๊ฐ’ ์ฐจ์ด์˜ ์ ˆ๋Œ“๊ฐ’์„ ๊ตฌํ•˜์‹œ์˜ค.

 

 

12๋ฒˆ ํ’€์ด

 

1. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ

import pandas as pd
data=pd.read_csv("housing.csv")

 

 

2. 80%-ํ›ˆ๋ จ๋ฐ์ดํ„ฐ๋กœ ์ถ”์ถœ

len_data=len(data)*0.8
len_data=int(len_data)

#์ถ”์ถœ
train=data[:len_data]

- len( ) : ๋ฐ์ดํ„ฐ์˜ ํ–‰ ๊ฐœ์ˆ˜๋ฅผ ์ €์žฅ

- int( ) : 0.8์„ ๊ณฑํ•ด์ฃผ๋Š” ์—ฐ์‚ฐ ํ›„์— ์ €์žฅํ•˜๋ฉด ์‹ค์ˆ˜๊ฐ’์œผ๋กœ ์ €์žฅ๋˜๋Š”๋ฐ, ์ด๋Œ€๋กœ ์ €์žฅํ•˜๋ฉด data[:len_data]๋ฅผ ํ•  ๋•Œ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ์ •์ˆ˜๊ฐ’์œผ๋กœ ์ง€์ •ํ•ด์ค˜์•ผํ•˜๊ธฐ ๋•Œ๋ฌธ..! ๋”ฐ๋ผ์„œ int()๋ณ€ํ™˜์„ ํ•ด์ค˜์•ผ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š๋Š”๋‹ค..!

 

 

3. NA ๊ฐœ์ˆ˜ ํ™•์ธ

print(train.isnull().sum())

#train=train.copy()
#๋ณ€ํ™˜ ์ „ ํ‘œ์ค€ํŽธ์ฐจ ๊ตฌํ•ด๋†“๊ธฐ
old=train['total_bedrooms'].std()

#์ค‘์•™๊ฐ’์œผ๋กœ ๊ฒฐ์ธก์น˜ ์ฑ„์›€
train['total_bedrooms']=train['total_bedrooms'].fillna(train['total_bedrooms'].median())

- train=train.copy() : ์ด ์ฝ”๋“œ๋ฅผ ์จ์ฃผ์ง€ ์•Š์œผ๋ฉด ์ž๊พธ ์•„๋ž˜์™€๊ฐ™์€ ๊ฒฝ๊ณ ๋ฌธ์ด ๋‚˜ํƒ€๋‚˜๋”๋ผ๊ตฌ์š”. ๋™์ผํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚˜์‹ ๋‹ค๋ฉด ์ด ์ฝ”๋“œ๋ฅผ ์ ์–ด์ฃผ์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹น..! ๋ฌผ๋ก  ๊ฒฝ๊ณ ๋ฌธ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ ์–ด์ฃผ์‹œ์ง€ ์•Š์œผ์…”๋„ ์ฝ”๋“œ๋Š” ๋๊นŒ์ง€ ์‹คํ–‰์ด ๋ฉ๋‹ˆ๋‹ค.

SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._set_item(key, value)

 

- ํ™•์ธ

print(train.isnull().sum())

 

 

4. ํ‘œ์ค€ํŽธ์ฐจ ๊ตฌํ•˜๊ธฐ

new=train['total_bedrooms'].std()

 

 

5. ๋Œ€์ฒด์ „ ํ‘œ์ค€ํŽธ์ฐจ์™€ ๋Œ€์ฒดํ›„ ํ‘œ์ค€ํŽธ์ฐจ ์‚ฌ์ด์˜ ์ฐจ์ด(์ ˆ๋Œ“๊ฐ’)

result=abs(old-new)

- abs() : ์ ˆ๋Œ“๊ฐ’์„ ๊ตฌํ•ด์คŒ

 

 

6. ๊ฒฐ๊ณผ๊ฐ’ ์ œ์ถœ

print(result)

 

728x90

'๐Ÿ“š Study > ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 2์œ ํ˜•(14๋ฒˆ)  (0) 2022.03.23
[๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(13๋ฒˆ)  (0) 2022.03.22
[๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(11๋ฒˆ)  (0) 2022.03.22
[๋น…๋ถ„๊ธฐ] ์ž‘์—…ํ˜• ์ œ1์œ ํ˜• - ์œ ํ˜•์ •๋ฆฌ  (0) 2021.12.24
[๋น…๋ถ„๊ธฐ] 2021 ์ œ3ํšŒ ๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐํ•ฉ๊ฒฉ ํ›„๊ธฐ - ๊ณต๋ถ€๋ฐฉ๋ฒ• ๋ฐ ๋ณต์›๋ฌธ์ œ  (0) 2021.12.22
'๐Ÿ“š Study/๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • [๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 2์œ ํ˜•(14๋ฒˆ)
  • [๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(13๋ฒˆ)
  • [๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(11๋ฒˆ)
  • [๋น…๋ถ„๊ธฐ] ์ž‘์—…ํ˜• ์ œ1์œ ํ˜• - ์œ ํ˜•์ •๋ฆฌ
xod22
xod22
xod22
Data Analyst Story
xod22
์ „์ฒด
์˜ค๋Š˜
์–ด์ œ
  • ๐ŸŒณ Home ๐ŸŒณ (178)
    • ๐Ÿฌ MySQL (46)
      • ๋ฌธ์ œํ’€์ด (29)
      • SQL ๋ฐ์ดํ„ฐ๋ถ„์„ ์บ ํ”„ (9)
    • ๐Ÿ” ๋ฐ์ดํ„ฐ ๋ถ„์„ (53)
      • Product (5)
      • 01. Data Collection (7)
      • 02. Data Processing (7)
      • 03. Data Visualizaton (15)
      • 04. Data Analysis (19)
    • ๐Ÿ“š Study (20)
      • ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ (8)
      • ADP ์‹ค๊ธฐ (7)
      • ๊ตฌ๊ธ€ ์• ๋„๋ฆฌํ‹ฑ์Šค (5)
      • ํ”„๋กœ์ ํŠธ (0)
    • โœ๏ธ ์ƒ๊ฐ ๊ธฐ๋ก (10)
      • ๋…์„œ (5)
      • ์ž๋ฃŒ ์Šคํฌ๋žฉ (2)
      • ์ทจ์—… ์ค€๋น„ (2)
    • ๐Ÿ’ป GitHub (6)
      • ์ˆ˜์ • ๋ฐ ๋ณ€๊ฒฝ (5)
    • ๐Ÿ ๋จธ์‹ ๋Ÿฌ๋‹ | ๋”ฅ๋Ÿฌ๋‹ (35)
      • ์ถ”์ฒœ์‹œ์Šคํ…œ (19)
      • ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ (1)
      • ํ…์ŠคํŠธ ๋ถ„์„ (10)

๊ณต์ง€์‚ฌํ•ญ

  • Github
  • How to ๊ตฌ๋…, ์ข‹์•„์š”

์ธ๊ธฐ ๊ธ€

์ตœ๊ทผ ๋Œ“๊ธ€

๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

  • ํ™ˆ
  • ํƒœ๊ทธ
  • ๋ฐฉ๋ช…๋ก

ํƒœ๊ทธ

  • ์„ธ๋ฏธ๋‚˜
  • ํ†ต๊ณ„์ ๋ชจ๋ธ๋ง
  • pandas
  • ๊ธฐ์ถœํ’€์ด
  • ์ฝ”๋”ฉํ…Œ์ŠคํŠธ
  • ๋Ÿฌ๋‹์Šคํ‘ผ์ฆˆ
  • tableau
  • ํŒŒ์ด์ฌ
  • ADP์‹ค๊ธฐ
  • ์ž‘์—…ํ˜•์ œ1์œ ํ˜•
  • Python
  • ํฌ๋กค๋ง
  • ๋น…๋ถ„๊ธฐ
  • MySQL
  • ๊ตฌ๊ธ€์• ๋„๋ฆฌํ‹ฑ์Šค
  • ๋ฐ์ดํ„ฐ์‹œ๊ฐํ™”
  • ๋ฐ์ดํ„ฐ๋ถ„์„
  • ์ถ”์ฒœ์‹œ์Šคํ…œ
  • ๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ
  • ๊นƒํ—ˆ๋ธŒ
  • SQL
  • ํ”„๋กœ๊ทธ๋ž˜๋จธ์Šค
  • ํƒœ๋ธ”๋กœ
  • ์‹œ๊ฐํ™”
  • ๋ฐ์ดํ„ฐ๋ฆฌ์•ˆ
  • Plot
  • ํ•ด์ปค๋žญํฌ
  • ์ „์ฒ˜๋ฆฌ
  • github
  • ํ…์ŠคํŠธ๋ถ„์„

์ตœ๊ทผ ๊ธ€

hELLO ยท Designed By ์ •์ƒ์šฐ.v4.2.0
xod22
[๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(12๋ฒˆ)
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”

๊ฐœ์ธ์ •๋ณด

  • ํ‹ฐ์Šคํ† ๋ฆฌ ํ™ˆ
  • ํฌ๋Ÿผ
  • ๋กœ๊ทธ์ธ

๋‹จ์ถ•ํ‚ค

๋‚ด ๋ธ”๋กœ๊ทธ

๋‚ด ๋ธ”๋กœ๊ทธ - ๊ด€๋ฆฌ์ž ํ™ˆ ์ „ํ™˜
Q
Q
์ƒˆ ๊ธ€ ์“ฐ๊ธฐ
W
W

๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๊ธ€

๊ธ€ ์ˆ˜์ • (๊ถŒํ•œ ์žˆ๋Š” ๊ฒฝ์šฐ)
E
E
๋Œ“๊ธ€ ์˜์—ญ์œผ๋กœ ์ด๋™
C
C

๋ชจ๋“  ์˜์—ญ

์ด ํŽ˜์ด์ง€์˜ URL ๋ณต์‚ฌ
S
S
๋งจ ์œ„๋กœ ์ด๋™
T
T
ํ‹ฐ์Šคํ† ๋ฆฌ ํ™ˆ ์ด๋™
H
H
๋‹จ์ถ•ํ‚ค ์•ˆ๋‚ด
Shift + /
โ‡ง + /

* ๋‹จ์ถ•ํ‚ค๋Š” ํ•œ๊ธ€/์˜๋ฌธ ๋Œ€์†Œ๋ฌธ์ž๋กœ ์ด์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํ‹ฐ์Šคํ† ๋ฆฌ ๊ธฐ๋ณธ ๋„๋ฉ”์ธ์—์„œ๋งŒ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.