[K-Data x ๋ฌ๋์คํผ์ฆ] 4-1. LDA๋ฅผ ์ด์ฉํ ์ถ์ฒ
์ค๋ ํฌ์คํ ์์๋ ๋น ๋ฅด๊ณ ์ค์ฉ์ ์ธ ์ถ์ฒ ๊ธฐ๋ฒ๋ค์ ๋ํด ์๊ฐํด๋ณด๋ ค๊ณ ํฉ๋๋ค!
์ ๋ช ํ์ง ์์ง๋ง ์ค์ ๋ก ๋น์ฆ๋์ค/์๋น์ค์์ ๋ง์ด ์ฌ์ฉ๋๋ ๋ชจ๋ธ๋ค์ด๋ ์ ๊ณต๋ถํด๋์ผ์๋ฉด ๋์์ด ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํฉ๋๋คเฌช(´‘โฝ‘๏ฝ)เฌโกโ
1. LDA
2. ์๋ฒ ๋ฉ๊ณผ Word2Vec->Item2Vec
3. Multi-Armed Bandit
์ด ์ธ๊ฐ์ง์ ๋ํด ์์ผ๋ก ์ฐจ๋ก๋๋ก ํฌ์คํ ํด๋ณผ ๊ณํ์ ๋๋ค!

LDA๋ฅผ ์ด์ฉํ ์ถ์ฒ
: Latent Dirichlet Allocatioin
ํ ํฝ ๋ชจ๋ธ๋ง์ ๋ฌธ์์ ์งํฉ์์ ํ ํฝ์ ์ถ์ถํ๋ ํฌ๋ฅด์ธ์ค๋ก
๊ฐ์ฅ ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ด LDA์ด๋ค!
LDA๋ ์ฃผ์ด์ง ๋ฌธ์์ ๊ฐ ๋ฌธ์๊ฐ ์ด๋ค ํ ํฝ์ ๊ฐ์ง๋์ง ํ๋ฅ ๋ชจํ์ ํตํด ํํํ๋ฉฐ
ํ ํฝ๋ณ ๋จ์ด์ ๋ถํฌ, ๋ฌธ์์ ํ ํฝ์ ๋ถํฌ๋ฅผ ๋๋ฆฌํด๋ ๋ถํฌ๋ก ๊ฐ์ ํ๊ณ ํ์ด๋ธ๋ค.!
LDA๋
1) ๊ฐ ํ ํฝ์ ๋จ์ด ๋ถํฌ => ๊ฐ ํ ํฝ๋ณ ๋จ์ด๋ถํฌ๋ค์ ํ๋ฅ ํฉ์ 1
2) ๊ฐ ๋ฌธ์์ ํ ํฝ ๋ถํฌ
์ด ๋๊ฐ์ง๋ฅผ ๋๋ฆฌํด๋ ๋ถํฌ๋ก ๊ฐ์ ํ๊ณ ์ถ์ ํ๋ค.
* ๋๋ฆฌํด๋ ๋ถํฌ (Dirichlet Distribution)
: ๋ฒกํฐ์ ์์๊ฐ ์์์ด๋ฉฐ ๋ชจ๋ ์์๋ฅผ ๋ํ ๊ฐ์ด 1์ธ ๊ฒฝ์ฐ ์ ์๋จ
ํ ํ ํฝ์ ๋จ์ด๊ฐ 100๋ง๊ฐ ์๋ค๋ฉด 100๋ง์ฐจ์์ ๋๋ํด๋ ๋ถํฌ๋ก ๋ํ๋จ
LDA ์์
๋ฌธ์1 : ๋๋ ์ถ์ฒ์ ๊ณต๋ถํ๋ค
๋ฌธ์2 : ๋๋ ์ํ ์์ด์ธ๋งจ์ ๋ดค๋ค
๋ฌธ์3 : ์ถ์ฒ์ ํตํด ์ํ๋ฅผ ๋ดค๋ค
1) ๋ฌธ์์ ํ ํฝ ๋ถํฌ
๋ฌธ์1 : topic A 100%
๋ฌธ์2 : topic B 100%
๋ฌธ์3 : topic A 60%, topic B 40%
2) ํ ํฝ์ ๋จ์ด ๋ถํฌ
topic A : ๋๋ 10%, ์ถ์ฒ์ 40%, ๊ณต๋ถํ๋ค 25%, ์ํ 5%, ์์ด์ธ๋งจ์ 5%, ๋ดค๋ค 10%, ํตํด 5%
topic B : ๋๋ 10%, ์ถ์ฒ์ 10%, ๊ณต๋ถํ๋ค 5%, ์ํ 25%, ์์ด์ธ๋งจ์ 30%, ๋ดค๋ค 15%, ํตํด 5%
์ค๋์ LDA์ ๋ํด ๊ฐ๋จํ๊ฒ LDA์ ๋ํด ํฌ์คํ ํด๋ณด์์ต๋๋ค.
๋ค์ ํฌ์คํ ์์๋ LDA์ ์์ฑ๊ณผ์ ์ ๋ํด ์์ธํ๊ฒ ๊ณต๋ถํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋น~_~
