[๋น…๋ถ„๊ธฐ] ์ž‘์—…ํ˜• ์ œ1์œ ํ˜• - ์œ ํ˜•์ •๋ฆฌ

2021. 12. 24. 00:08ยท ๐Ÿ“š Study/๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ
728x90

์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•์„ ํ’€์–ด๋‚˜๊ฐˆ ๋•Œ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๊ฒƒ๋“ค์„ ์ •๋ฆฌํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค!

 

๊ทธ๋Ÿผ ์‹œ์ž‘!

1. ์˜ค๋ฆ„์ฐจ์ˆœ, ๋‚ด๋ฆผ์ฐจ์ˆœ ์ •๋ ฌ

 

๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์„ ๋‹ค๋ฃฐ ๋•Œ ์˜ค๋ฆ„์ฐจ์ˆœ์ด๋‚˜ ๋‚ด๋ฆผ์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•ด์•ผํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ž์ฃผ ๋“ฑ์žฅํ•œ๋‹ค.

์˜ค๋ฆ„์ฐจ์ˆœ(์ž‘์€์ˆ˜๋ถ€ํ„ฐ)์œผ๋กœ ์ •๋ ฌํ•˜๋ ค๋ฉด ํŠน๋ณ„ํ•œ ์˜ต์…˜์„ ์ฃผ์ง€์•Š์•„๋„ ๋˜์ง€๋งŒ ๋‚ด๋ฆผ์ฐจ์ˆœ(ํฐ์ˆ˜๋ถ€ํ„ฐ)์œผ๋กœ ์ •๋ ฌํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด

ascending=False๋ผ๋Š” ์˜ต์…˜์„ ์ถ”๊ฐ€ํ•ด์ฃผ์–ด์•ผ ํ•œ๋‹ค.

# ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„๋ช….sort_values('์ปฌ๋Ÿผ๋ช…', ascending=False, inplace=True)
# data์˜ 'CRIM'์„ ๋‚ด๋ฆผ์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•˜์—ฌ๋ผ
data.sort_values('CRIM', ascending=False, inplace=True)

inplace=True ์˜ต์…˜์„ ์ถ”๊ฐ€ํ•˜๋ฉด data(๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„๋ช…)์ด ์˜ต์…˜์— ๋งž๊ฒŒ ๋ฐ”๋€๋‹ค.

 

 

2. ํ‰๊ท /ํ‘œ์ค€ํŽธ์ฐจ/์ค‘์•™๊ฐ’/์ ˆ๋Œ“๊ฐ’ ๊ตฌํ•˜๊ธฐ

 

์ด๋ ‡๊ฒŒ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๋„ค๊ฐ€์ง€๋Š” ๊ธฐ์–ตํ•˜๊ณ  ์žˆ๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

# ํ‰๊ท 
data.mean()

# ์ค‘์•™๊ฐ’
data.median()

# ํ‘œ์ค€ํŽธ์ฐจ
data.std()

# ์ ˆ๋Œ“๊ฐ’
data.abs()

 

3. ์ด์ƒ๊ฐ’

 

๋ฐ์ดํ„ฐ์˜ ํŠน์ • ์นผ๋Ÿผ์—์„œ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ด์ƒ์น˜ ๊ธฐ์ค€์„ IQR๋กœ ํ•œ๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ๋“ฑ์žฅํ–ˆ๋‹ค๋ฉด ๋ฐ”๋กœ ์ด ์ฝ”๋“œ๋ฅผ ์ ์šฉ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

Q1=data['CRIM'].quantile(q=0.25)
Q3=data['CRIM'].quantile(q=0.75)
IQR=Q3-Q1

IQR์„ ๊ตฌํ•œ ํ›„์— IQR์˜ 1.5๋ฐฐ๋ณด๋‹ค ํฐ ๊ฐ’๊ณผ ์ž‘์€ ๊ฐ’์„ ์ œ๊ฑฐํ•ด์•ผํ•œ๋‹ค.

data_IQR=data[(data['CRIM']>=Q1-1.5*IQR) & (data['CRIM'<=Q3+1.5*IQR)]
# ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ํ›„ ๋ฐ์ดํ„ฐ์…‹๋ช… data_IQR

์ด๋ ‡๊ฒŒ ๋ฐ์ดํ„ฐ์—์„œ ์กฐ๊ฑด์— ๋”ฐ๋ผ ํ–‰์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋Š” ์ฝ”๋“œ์— ์ต์ˆ™ํ•ด์ ธ์•ผํ•œ๋‹ค!!

 

4. ๊ฒฐ์ธก๊ฐ’ ๋Œ€์น˜

 

.fillna(data['์ปฌ๋Ÿผ๋ช…'].mean())
data[['Ozone']]=data[['Ozone']].fillna(ozone_median)

- ํŠน์ •์—ด์˜ ๊ฒฐ์ธก๊ฐ’ dropna
data.dropna(subset=['Solar.R'], inplace=True)

 

5. int๋ณ€ํ™˜

 

int(๋ณ€์ˆ˜)๋ฅผ ๋„ฃ์–ด์ฃผ๋ฉด ์‹ค์ˆ˜๊ฐ€ ์ •์ˆ˜๋กœ ์ถœ๋ ฅ๋œ๋‹ค.

์˜ˆ๋ฅผ๋“ค์–ด ํ–‰ ๊ฐœ์ˆ˜์˜ 70%๋งŒ ๋ฝ‘์•„ train๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์šฉํ•ด์•ผํ•˜๋Š” ๊ฒฝ์šฐ ํ–‰๊ฐœ์ˆ˜*0.7์„ ํ–ˆ์„ ๋•Œ,

์ •์ˆ˜๋กœ ๋”ฑ ๋–จ์–ด์ง€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์†Œ์ˆ˜์ ์œผ๋กœ ๊ณ„์‚ฐ๋œ๋‹ค๋ฉด int(๋ณ€์ˆ˜) ์˜ต์…˜์„ ์ฃผ๋ฉด ๋œ๋‹ค.

 

6. ~๋ณ„๋กœ(groupby()ํ•จ์ˆ˜)

 

mean=data.groupby('age').mean()

 

7. ๊ฐ’๋Œ€์ฒด(replaceํ•จ์ˆ˜) -> object๋ฅผ ์ˆซ์ž๋กœ ๋Œ€์ฒดํ•˜๊ธฐ

 

# ๋ฐ์ดํ„ฐ์…‹๋ช….replace({"์ปฌ๋Ÿผ๋ช…":{"๋ฌธ์ž":"๋Œ€์ฒดํ• ๋ฌธ์ž"}}, inplace=True)
data.replace('loan_status':{'COLLECTION_PAIDOFF':4}}, inplace=True)
data['loan_status']=pd.to_numeric(๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„๋ช…['์ปฌ๋Ÿผ๋ช…'])

 

8. value๋ณ„๋กœ ๊ฐœ์ˆ˜ ์„ธ๊ธฐ

group=data[['item_id']].value_counts()

 

์„ค๋ช…์€..๋‚˜์ค‘์— ์ฐจ์ฐจ ์ฑ„์šฐ๊ฒ ์Šต๋‹ˆ๋‹ค..!

์ผ๋‹จ ์—ฌ๊ธฐ๊นŒ์ง€!

728x90

'๐Ÿ“š Study > ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(13๋ฒˆ)  (0) 2022.03.22
[๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(12๋ฒˆ)  (0) 2022.03.22
[๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(11๋ฒˆ)  (0) 2022.03.22
[๋น…๋ถ„๊ธฐ] 2021 ์ œ3ํšŒ ๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐํ•ฉ๊ฒฉ ํ›„๊ธฐ - ๊ณต๋ถ€๋ฐฉ๋ฒ• ๋ฐ ๋ณต์›๋ฌธ์ œ  (0) 2021.12.22
[pandas] 1. ๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ  (0) 2021.12.21
'๐Ÿ“š Study/๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • [๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(12๋ฒˆ)
  • [๋น…๋ถ„๊ธฐ] 2021๋…„ ์‹ค๊ธฐ ๊ธฐ์ถœ ํ’€์ด-์ž‘์—…ํ˜• ์ œ 1์œ ํ˜•(11๋ฒˆ)
  • [๋น…๋ถ„๊ธฐ] 2021 ์ œ3ํšŒ ๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐํ•ฉ๊ฒฉ ํ›„๊ธฐ - ๊ณต๋ถ€๋ฐฉ๋ฒ• ๋ฐ ๋ณต์›๋ฌธ์ œ
  • [pandas] 1. ๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ
xod22
xod22
xod22
Data Analyst Story
xod22
์ „์ฒด
์˜ค๋Š˜
์–ด์ œ
  • ๐ŸŒณ Home ๐ŸŒณ (178)
    • ๐Ÿฌ MySQL (46)
      • ๋ฌธ์ œํ’€์ด (29)
      • SQL ๋ฐ์ดํ„ฐ๋ถ„์„ ์บ ํ”„ (9)
    • ๐Ÿ” ๋ฐ์ดํ„ฐ ๋ถ„์„ (53)
      • Product (5)
      • 01. Data Collection (7)
      • 02. Data Processing (7)
      • 03. Data Visualizaton (15)
      • 04. Data Analysis (19)
    • ๐Ÿ“š Study (20)
      • ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ (8)
      • ADP ์‹ค๊ธฐ (7)
      • ๊ตฌ๊ธ€ ์• ๋„๋ฆฌํ‹ฑ์Šค (5)
      • ํ”„๋กœ์ ํŠธ (0)
    • โœ๏ธ ์ƒ๊ฐ ๊ธฐ๋ก (10)
      • ๋…์„œ (5)
      • ์ž๋ฃŒ ์Šคํฌ๋žฉ (2)
      • ์ทจ์—… ์ค€๋น„ (2)
    • ๐Ÿ’ป GitHub (6)
      • ์ˆ˜์ • ๋ฐ ๋ณ€๊ฒฝ (5)
    • ๐Ÿ ๋จธ์‹ ๋Ÿฌ๋‹ | ๋”ฅ๋Ÿฌ๋‹ (35)
      • ์ถ”์ฒœ์‹œ์Šคํ…œ (19)
      • ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ (1)
      • ํ…์ŠคํŠธ ๋ถ„์„ (10)

๊ณต์ง€์‚ฌํ•ญ

  • Github
  • How to ๊ตฌ๋…, ์ข‹์•„์š”

์ธ๊ธฐ ๊ธ€

์ตœ๊ทผ ๋Œ“๊ธ€

๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

  • ํ™ˆ
  • ํƒœ๊ทธ
  • ๋ฐฉ๋ช…๋ก

ํƒœ๊ทธ

  • ๋ฐ์ดํ„ฐ๋ฆฌ์•ˆ
  • ํ†ต๊ณ„์ ๋ชจ๋ธ๋ง
  • ์‹œ๊ฐํ™”
  • ๊นƒํ—ˆ๋ธŒ
  • ํ”„๋กœ๊ทธ๋ž˜๋จธ์Šค
  • ํƒœ๋ธ”๋กœ
  • MySQL
  • tableau
  • ์ž‘์—…ํ˜•์ œ1์œ ํ˜•
  • ๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ
  • ๊ตฌ๊ธ€์• ๋„๋ฆฌํ‹ฑ์Šค
  • ๋Ÿฌ๋‹์Šคํ‘ผ์ฆˆ
  • ๋น…๋ถ„๊ธฐ
  • pandas
  • ADP์‹ค๊ธฐ
  • ํŒŒ์ด์ฌ
  • SQL
  • ๋ฐ์ดํ„ฐ๋ถ„์„
  • ํ•ด์ปค๋žญํฌ
  • ์ฝ”๋”ฉํ…Œ์ŠคํŠธ
  • ํฌ๋กค๋ง
  • Python
  • ๊ธฐ์ถœํ’€์ด
  • ์ „์ฒ˜๋ฆฌ
  • ์ถ”์ฒœ์‹œ์Šคํ…œ
  • ํ…์ŠคํŠธ๋ถ„์„
  • ๋ฐ์ดํ„ฐ์‹œ๊ฐํ™”
  • Plot
  • github
  • ์„ธ๋ฏธ๋‚˜

์ตœ๊ทผ ๊ธ€

hELLO ยท Designed By ์ •์ƒ์šฐ.v4.2.0
xod22
[๋น…๋ถ„๊ธฐ] ์ž‘์—…ํ˜• ์ œ1์œ ํ˜• - ์œ ํ˜•์ •๋ฆฌ
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”

๊ฐœ์ธ์ •๋ณด

  • ํ‹ฐ์Šคํ† ๋ฆฌ ํ™ˆ
  • ํฌ๋Ÿผ
  • ๋กœ๊ทธ์ธ

๋‹จ์ถ•ํ‚ค

๋‚ด ๋ธ”๋กœ๊ทธ

๋‚ด ๋ธ”๋กœ๊ทธ - ๊ด€๋ฆฌ์ž ํ™ˆ ์ „ํ™˜
Q
Q
์ƒˆ ๊ธ€ ์“ฐ๊ธฐ
W
W

๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๊ธ€

๊ธ€ ์ˆ˜์ • (๊ถŒํ•œ ์žˆ๋Š” ๊ฒฝ์šฐ)
E
E
๋Œ“๊ธ€ ์˜์—ญ์œผ๋กœ ์ด๋™
C
C

๋ชจ๋“  ์˜์—ญ

์ด ํŽ˜์ด์ง€์˜ URL ๋ณต์‚ฌ
S
S
๋งจ ์œ„๋กœ ์ด๋™
T
T
ํ‹ฐ์Šคํ† ๋ฆฌ ํ™ˆ ์ด๋™
H
H
๋‹จ์ถ•ํ‚ค ์•ˆ๋‚ด
Shift + /
โ‡ง + /

* ๋‹จ์ถ•ํ‚ค๋Š” ํ•œ๊ธ€/์˜๋ฌธ ๋Œ€์†Œ๋ฌธ์ž๋กœ ์ด์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํ‹ฐ์Šคํ† ๋ฆฌ ๊ธฐ๋ณธ ๋„๋ฉ”์ธ์—์„œ๋งŒ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.