🏁 λ¨Έμ‹ λŸ¬λ‹ | λ”₯λŸ¬λ‹/μΆ”μ²œμ‹œμŠ€ν…œ

[K-Data x λŸ¬λ‹μŠ€ν‘Όμ¦ˆ] 2-3. μœ μ‚¬λ„ κ°œλ… μ΄ν•΄ν•˜κΈ°

xod22 2022. 1. 16. 23:27
728x90

μ €λ²ˆ ν¬μŠ€νŒ…μ— κ²Œμ‹œν•œ CF(ν˜‘μ—…ν•„ν„°λ§) 방법을 보면

https://xod22.tistory.com/12

 

[K-Data x λŸ¬λ‹μŠ€ν‘Όμ¦ˆ] 2-2. ν˜‘μ—… 필터링(CF)의 원리

μ €λ²ˆ ν¬μŠ€νŒ…μ—μ„œλŠ” 컨텐츠 기반 μΆ”μ²œμΈ CB(Content-based Recommendation)에 λŒ€ν•΄ κ³΅λΆ€ν•΄λ΄€λŠ”λ°μš”! μ΄λ²ˆμ—λŠ” 많이 μ“°μ΄λŠ” ν˜‘μ—…ν•„ν„°λ§(CF)에 λŒ€ν•΄ 적어보렀고 ν•©λ‹ˆλ‹€!! # ν˜‘μ—… 필터링? : CF(Collaborative Filterin..

xod22.tistory.com

μœ μ‚¬λ„ 계산이 ν•„μˆ˜μ μΈλ°μš”! 

μ˜€λŠ˜μ€ μœ μ‚¬λ„ 계산을 ν•˜λŠ” μ—¬λŸ¬κ°€μ§€ 방법에 λŒ€ν•΄ μžμ„Έν•˜κ²Œ 적어보렀고 ν•©λ‹ˆλ‹€!

 

그럼 μ‹œμž‘!

# 1) Cosine Similarity

: 두 λ²‘ν„°μ˜ 각도λ₯Ό μ΄μš©ν•˜μ—¬ ꡬ할 수 μžˆλŠ” μœ μ‚¬λ„.

μ§κ΄€μ μœΌλ‘œ 두 벑터가 κ°€λ¦¬ν‚€λŠ” λ°©ν–₯이 μ–Όλ§ˆλ‚˜ μœ μ‚¬ν•œμ§€λ₯Ό μ˜λ―Έν•œλ‹€.

 

일반적으둜 계산을 μœ„ν•΄μ„œλŠ”(내적) 두 λ²‘ν„°μ˜ 차원은 κ°™μ•„μ•Όν•œλ‹€.

[1,2,3] μ΄λ ‡κ²Œ 3차원 벑터라면 μƒλŒ€ 벑터 μ—­μ‹œ [2,4,6] μ΄λŸ°μ‹μœΌλ‘œ..!

# 2) MSD Similarity (Mean Squared Difference Similarity)

: μΆ”μ²œ μ‹œμŠ€ν…œμ—μ„œλ§Œ μ“°μ΄λŠ” μœ μ‚¬λ„!

=> 각 κΈ°μ€€(μœ μ €, μ•„μ΄ν…œ)에 λŒ€ν•œ 점수의 차이λ₯Ό κ³„μ‚°ν•œλ‹€

=> μœ μ‚¬λ„λŠ” μœ ν΄λ¦¬λ“œ 거리에 λ°˜λΉ„λ‘€..! / λΆ„λͺ¨μ— 1을 λ”ν•˜λŠ” μ΄μœ λŠ” λΆ„λͺ¨κ°€ 0μ΄λ˜λŠ” 것을 λ°©μ§€ν•˜κΈ° μœ„ν•œ μΌμ’…μ˜ smoothing

# 3) Jaccard Similarity

: μ§‘ν•©μ˜ κ°œλ…μ„ μ‚¬μš©ν•œ μœ μ‚¬λ„λ‘œ 잘 쓰이진 μ•ŠμŒ!

코사인 μœ μ‚¬λ„/ν”Όμ–΄μŠ¨ μœ μ‚¬λ„μ™€ 달리 길이가 달라도 이둠적으둜 μœ μ‚¬λ„λ₯Ό ꡬ할 수 있음!

두 집합이 μ–Όλ§ˆλ‚˜ μœ μ‚¬ν•œ μ•„μ΄ν…œμ„ κ³΅μœ ν•˜κ³  μžˆλŠ”κ°€λ₯Ό λ‚˜νƒ€λƒ„

 

μ§‘ν•©A : [1,2,3]

μ§‘ν•©B : [3,2,1] => {1,2,3}

# 4) Pearson Similarity (Pearson Correlation)

: 각 벑터λ₯Ό ν‘œλ³Έ ν‰κ· μœΌλ‘œ μ •κ·œν™”ν•œ 뒀에 코사인 μœ μ‚¬λ„λ₯Ό κ΅¬ν•œ κ°’

μ •κ·œν™” 과정을 λΉΌκ³  보면 코사인 μœ μ‚¬λ„λ₯Ό κ΅¬ν•˜λŠ” 방법과 동일!

1에 κ°€κΉŒμš°λ©΄ μ–‘μ˜ 상관관계, 0일 경우 μ„œλ‘œ 독립, -1에 κ°€κΉŒμšΈμˆ˜λ‘ 음의 상관관계λ₯Ό λ‚˜νƒ€λƒ„

User-basedμ—μ„œ ν”Όμ–΄μŠ¨ μœ μ‚¬λ„λ₯Ό μ‚¬μš©ν•˜λ©΄ μ„±λŠ₯이 λ†’λ‹€λŠ”κ²Œ 

평점을 μ§œκ²Œμ£Όκ±°λ‚˜ ν›„ν•˜κ²Œ μ£Όκ±°λ‚˜λ₯Ό κ³ λ €ν•΄μ„œ μœ μ‚¬λ„λ₯Ό 계산해주기 λ•Œλ¬Έμ΄ μ•„λ‹κΉŒ..(?) λΌλŠ” 생각이 λ“ λ‹€..!

 


μ΄λ ‡κ²Œ 4κ°€μ§€ λ°©λ²•μ˜ μœ μ‚¬λ„ 계산을 μ •λ¦¬ν•΄λ³΄μ•˜λŠ”λ°μš”!

CFμ—μ„œ User-based λ°©λ²•μ—μ„œλŠ” ν”Όμ–΄μŠ¨ μœ μ‚¬λ„λ₯Ό μ‚¬μš©ν•  λ•Œ μ„±λŠ₯이 λ†’κ³  

Item-basedλ°©λ²•μ—μ„œλŠ” 코사인 μœ μ‚¬λ„λ₯Ό μ‚¬μš©ν•  λ•Œ μ„±λŠ₯이 λ†’λ‹€λŠ” 사싀을 λ‹€μ‹œν•œλ²ˆ κΈ°μ–΅ν•΄λ³΄λ©΄μ„œ μ •λ¦¬ν•˜λ©΄ 쒋을 것 κ°™μŠ΅λ‹ˆλ‹€!

 

그럼 끝~~!
728x90