[ν μ€νΈ λΆμ] 2-1. ν μ€νΈ μ μ²λ¦¬ - ν΄λ μ§, ν ν°ν
[ν μ€νΈ λΆμ] 1. ν μ€νΈ λΆμμ μ΄ν΄
νλ‘μ νΈλ₯Ό νλ©΄μ ν μ€νΈ λΆμμ μ ν΄λ³Ό κΈ°νκ° μμλλ° μμ ν μ΄ν΄λ₯Ό νκ³ μ¬μ©ν κ²μ μλλΌ μ€λ₯λ λ§μ΄ μ ν΄λ³΄μκ³ κ·Έλμ λμ± μ°¨κ·Όμ°¨κ·Ό ν μ€νΈ λΆμμ λν΄ κ³΅λΆν΄λ³΄λ €κ³ ν©λλ€! ν
xod22.tistory.com
μ λ² ν¬μ€ν μμ ν μ€νΈ λΆμμ μ΄ν΄μ λν΄ κ°λ¨ν μ μ΄λ³΄μλλ°μ!
μ€λμ ν μ€νΈ λΆμμ νλ‘μΈμ€ μ€ μ²«λ²μ§ΈμΈ ν μ€νΈ μ μ²λ¦¬ λ° μ κ·νμ λν΄ κ³΅λΆν΄λ³΄λ €κ³ ν©λλ€!

λ¬Έμμμ λ¨μ΄ κΈ°λ°μΌλ‘ νμ¬ νΌμ²λ₯Ό λ½μ νμ νΌμ²μ λ²‘ν° κ°μ λΆμ¬νλ μμ μ΄ νμνλ€.
νμ§λ§ νΌμ²μ 벑ν°κ°μ λΆμ¬νλ μμ μ νκΈ°μ ! λ³Έ λ°μ΄ν°μ λν μ μ²λ¦¬ μμ μ΄ νμμ μ΄λ€..!
ν μ€νΈ λΆμμ μ μ²λ¦¬ μμ μ μ 리ν΄λ³΄μλ©΄ λ€μκ³Ό κ°λ€.
1. Cleansing(ν΄λ μ§)
2. Tokenization(ν ν°ν)
3. νν°λ§ / stopwords(λΆμ©μ΄) μ κ±° / μ² μ μμ
4. Stemming & Lemmatization
1. Cleansing(ν΄λ μ§)
: ν μ€νΈ λΆμμμ μ€νλ € λ°©ν΄κ° λλ λΆνμν λ¬Έμ λ±μ μ κ±°νλ μμ μ λ§νλ€!
μλ₯Όλ€μ΄ μΈν°λ·μμ ν¬λ‘€λ§ν λ°μ΄ν°κ° μλ€κ³ νμ λ, html κΈ°νΈ λ±μ μ¬μ μ μμ νλ μμ μ΄ μ΄μ μν¨..!
2. Tokenization(ν ν°ν)
: λ κ²μ ν μ€νΈλ₯Ό λ¬Έμ₯λ³, λ¨μ΄λ³λ‘ λλκΈ°..!
ν ν°νμ μ νμ ν¬κ² λκ°μ§κ° μλ€.
1) λ¬Έμ₯ ν ν°ν : λ¬Έμμμ λ¬Έμ₯μ λΆλ¦¬
2) λ¨μ΄ ν ν°ν : λ¬Έμ₯μμ λ¨μ΄λ₯Ό ν ν°μΌλ‘ λΆλ¦¬
μ¦ λ¬Έμ->λ¬Έμ₯, λ¬Έμ₯->λ¨μ΄
~ν¨ν€μ§ μν¬νΈ~
from nltk import sent_tokenize
import nltk
nltk.download('punkt')
~λ¬Έμ₯ ν ν°ν~
: λ¬Έμ₯ ν ν°νλ μ£Όλ‘ λ¬Έμ₯μ λ§μ§λ§μ λ»νλ κΈ°νΈλ₯Ό κΈ°μ€μΌλ‘ μμ μ΄ μ§νλλ€..!
λ¬Έμ₯μ λ§μ§λ§μ μμ§νλ κΈ°νΈλ‘λ λνμ μΌλ‘ λ§μΉ¨ν(.)μ κ°νλ¬Έμ(\n) λ±μ΄ μλ€.
λν μ κ·ν ννμμ λ°λ₯Έ λ¬Έμ₯ ν ν°νλ κ°λ₯νλ€.
text_sample = '''The Matrix is everywhere its all around us,
here even in this room. you can see it out your window or on your television.
you feel it when you go to work, or go to church or pay your taxes.'''
# sent_tokenize(text="μ
λ ₯ν ν
μ€νΈ")
sentences = sent_tokenize(text=text_sample)
print("κ²°κ³Ό :", sentences)
# textκ° λͺκ°μ λ¬Έμ₯μΌλ‘ λμ΄μλμ§ κ°μλ₯Ό μΈμ€
print("λ¬Έμ₯ κ°μ :", len(sentences))
printλ‘ ν μ€νΈλ₯Ό νμΈν΄λ³΄λ©΄, λ¬Έμ₯λ³λ‘ λΆλ¦¬κ° λμ΄ λ¦¬μ€νΈμ λ΄κ²¨μλ κ²μ μ μ μλ€!
~λ¨μ΄ ν ν°ν~
: λ¨μ΄ ν ν°νλ λ¬Έμ₯μ λ¨μ΄λ‘ ν ν°ν ν¨μ μλ―Ένλ€.
κΈ°λ³Έμ μΌλ‘λ 곡백, μ½€λ§(,), λ§μΉ¨ν(.), κ°νλ¬Έμ λ±μ κΈ°μ€μΌλ‘ ν ν°ν μν¨λ€.
from nltk import word_tokenize
sentence = "The Matrix is everywhere its all around us, here even in this room"
words = word_tokenize(sentence)
print(type(words))
print("κ²°κ³Ό :", words)
곡백μ κΈ°μ€μΌλ‘ κ° λ¨μ΄λ€μ΄ 리μ€νΈμ λ΄κ²¨ λνλκ³ μλ κ²μ νμΈν μ μλ€.
~λ¬Έμ₯ ν ν°νμ λ¨μ΄ ν ν°νμ κ²°ν©~
from nltk import word_tokenize, sent_tokenize
#ν¨μ μμ±
def tokenize_text(text):
#λ¬Έμ₯λ³λ‘ λΆλ¦¬
sentences = sent_tokenize(text)
#λΆλ¦¬λ λ¬Έμ₯λ³ λ¨μ΄ ν ν°ν
word_tokens = [word_tokenize(sentence) for sentence in sentences]
return word_tokens
#ν¨μμ text_sampleμ λ£μ΄μ€
word_tokens = tokenize_text(text_sample)
#λ°νκ° word_tokens μΆλ ₯
print(type(word_tokens), len(word_tokens))
print(word_tokens)
3κ°μ λ¬Έμ₯λ€μ΄ κ°κ° λ¨μ΄ ν ν°νλμ΄ νλμ 리μ€νΈμ λ΄κ²¨μμμ νμΈν μ μλ€!
-> μΈκ°μ λ¬Έμ₯μ΄λ―λ‘ μΈκ°μ 리μ€νΈ..!