[텍스트 분석] 6. KoNLPy를 이용한 네이버 영화 평점 감성분석

🏁 머신러닝 | 딥러닝/텍스트 분석

[텍스트 분석] 6. KoNLPy를 이용한 네이버 영화 평점 감성분석

xod22 2022. 3. 19. 22:58

728x90

한글 NLP 처리의 어려움

영어의 경우 띄어쓰기를 잘못하면 잘못된 단어 또는 없는 단어로 인식됩니다. 하지만 한글의 경우, '아버지가 방에 들어가신다'를 잘못 띄어쓰기하면 '아버지 가방에 들어가신다'가 되어 의미가 왜곡되게 됩니다.

또한 주어나 목적어를 위해 추가되는 조사의 경우 전처리를 할때 제거하기가 까다롭습니다.

'너희 집은 어디 있니?'에서 '집은'의 '은'이 뜻하는 것이 조사인지 아니면 금은동할때 은인지 구분하기가 어렵습니다. 띄어쓰기가 잘못돼어 '집 은'으로 쓴 경우 더욱 그렇습니다..!

이러한 문제들 때문에 한글 언어 처리가 라틴어 처리보다 어렵다고 합니다.

실습

KoNLPy는 파이썬의 대표적인 한글 형태소 패키지입니다. KoNLPy는 자바 형태소 분석 엔진을 래퍼한 것이기 때문에 Java설치가 선행되어야 합니다.

설치가 복잡하기 때문에 구글이나 이 글을 참고하셔서 차근차근 자바부터 설치하시면 실행되실꺼에요..!

2021년 7월 기준 konlpy 설치 방법

파이썬에서 konlpy를 설치하다 고통받은 분들을 위하여

velog.io

- Okt패키지 사용중 오류가 발생하면 이 글 참고..!

[자연어 처리] konlpy 설치 오류, okt()에러-already loaded in another classloader, SystemErro

자연어 처리 실습을 하기 위해 konlpy를 설치하던 중 수 차례의 오류를 맞이했습니다...😭😭 저는 환경변수부터 pip, konlpy 호출 등 모든 부분에서 에러를 겼었는데요,,,,ㅎ 관련 지식은 거의 없지

byeon-sg.tistory.com

1. 데이터 불러오기

import pandas as pd
train_df=pd.read_csv("ratings_train.txt", sep='\t')
train_df.head(3)

- 학습 데이터 세트의 0과 1의 label값 비율 살펴보기

(1이 긍정, 0이 부정 감성)

train_df['label'].value_counts()

2. 전처리

train_df의 경우 'document'컬럼에 null값이 존재하기 때문에 공백으로 변환해준다.

또한 문자가 아닌 숫자의 경우에도 분석에서 단어적인 의미로 부족하기 때문에 파이썬 정규 표현식 모듈 re를 사용해 공백으로 변환해준다..!

import re

#train데이터->null을 공백으로 변환
train_df = train_df.fillna(' ')
#정규 표현식을 이용하여 숫자를 공백으로 변경(정규 표현식으로 \d 는 숫자를 의미함) 
train_df['document'] = train_df['document'].apply( lambda x : re.sub(r"\d+", " ", x) )

#test데이터 로딩->null을 공백으로 변환
test_df = pd.read_csv('ratings_test.txt', sep='\t')
test_df = test_df.fillna(' ')
#숫자를 공백으로 변경
test_df['document'] = test_df['document'].apply( lambda x : re.sub(r"\d+", " ", x) )

3. 토큰화

한글 형태소 엔진은 Okt(구 Twitter)를 이용해 각 문장을 한글 형태소 단어로 토큰화한 뒤 TfidfVectorizer로 TF-IDF 방식으로 단어를 벡터화.

from konlpy.tag import Okt

okt = Okt()

def tw_tokenizer(text):
    #입력 인자로 들어온 text를 형태소 단어로 토큰화 하여 list 객체 변환
    tokens_ko = okt.morphs(text)
    return tokens_ko

2022.03.22 - [머신러닝 | 딥러닝/텍스트 분석] - [텍스트 분석] KoNLPy - Twitter 오류 해결

[텍스트 분석] KoNLPy - Twitter 오류 해결

코드 from konlpy.tag import Twitter twitter=Twitter() 오류 UserWarning: "Twitter" has changed to "Okt" since KoNLPy v0.4.5. warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.') 위의 코드를 실..

xod22.tistory.com

- tw_tokenizer() : Tfidfectorizer tokenizer 파라미터로 문장을 형태소 단어 형태로 변환하는 함수.

~벡터화~

from sklearn.feature_extraction.text import TfidfVectorizer

#Okt 객체의 morphs()객체를 이용한 tokenizer 사용
tfidf_vect = TfidfVectorizer(tokenizer= tw_tokenizer, ngram_range=(1,2), min_df=3, max_df=0.9)
tfidf_vect.fit(train_df['document'])
tfidf_matrix_train = tfidf_vect.transform(train_df['document'])

- min_df : 최소 빈도값을 설정해주는 파라미터

DF는 특정 단어가 나타나는 '문서의 수;를 의미, 단어의 수가 아님.

min_df를 설정하여 해당 값보다 작은 DF를 가진 단어들은 사전(vocabulary_)에서 제외함

- max_df : 최대 빈도값을 설정해주는 파라미터

max_df를 설정하여 해당 값보다 작은 DF를 가진 단어들은 사전(vocabulary_)에서 제외함

float은 %, int는 갯수를 의미함 (ex - 0.80 = 문서에 80%이상으로 나타나는 단어 무시, 10 = 문서에 10개 이상으로 나타나는 단어 무시)

- ngram_range : 단어의 묶음의 범위 설정 파라미터

ngram_range = (1, 1) : 단어의 묶음을 1개부터 1개까지 설정 (one, two, …)

ngram_range = (1, 2) : 단어의 묶음을 1개부터 2개까지 설정 (go back, good time, one, two, …)

5. 로지스틱회귀, GridSearchCV를 이용한 최적화

-> 최적의 파라미터값을 찾음

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

#Logistic Regression 을 이용하여 감성 분석 Classification 수행
lg_clf = LogisticRegression(random_state=0)

#Parameter C 최적화를 위해 GridSearchCV를 이용
params = { 'C': [1 ,3.5, 4.5, 5.5, 10 ] }
grid_cv = GridSearchCV(lg_clf , param_grid=params , cv=3 ,scoring='accuracy', verbose=1 )
grid_cv.fit(tfidf_matrix_train , train_df['label'] )
print(grid_cv.best_params_ , round(grid_cv.best_score_,4))

~정확도~

from sklearn.metrics import accuracy_score

#학습 데이터를 적용한 TfidfVectorizer를 이용하여 테스트 데이터를 TF-IDF 값으로 Feature 변환 
tfidf_matrix_test = tfidf_vect.transform(test_df['document'])

#classifier 는 GridSearchCV에서 최적 파라미터로 학습된 classifier를 그대로 이용
best_estimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)

print('Logistic Regression 정확도: ',accuracy_score(test_df['label'],preds))

6. 실제 문장 테스트

test_df['document'][100]

grid_cv.predict(tfidf_vect.transform([test_df['document'][100]]))

- Test 100번째 데이터의 리뷰를 보고, 감성분석의 결과 0(부정)으로 나오는것을 보니, 나쁘지않은것 같다

- transform을 할때 리스트로 감싸주어야 한다.

7. 감성분류 적용

text = '시원하고 통쾌한 액션 최고였어요'
if grid_cv.predict(tfidf_vect.transform([text])) == 0:
    print(f'"{text}" -> 부정일 가능성이 {round(grid_cv.predict_proba(tfidf_vect.transform([text]))[0][0],2)}% 입니다.')
else:
    print(f'"{text}" -> 긍정일 가능성이 {round(grid_cv.predict_proba(tfidf_vect.transform([text]))[0][1],2)}% 입니다.')

text = '여태 보았던 영화중에 제일 재미없네요'
if grid_cv.predict(tfidf_vect.transform([text])) == 0:
    print(f'"{text}" -> 부정일 가능성이 {round(grid_cv.predict_proba(tfidf_vect.transform([text]))[0][0],2)}% 입니다.')
else:
    print(f'"{text}" -> 긍정일 가능성이 {round(grid_cv.predict_proba(tfidf_vect.transform([text]))[0][1],2)}% 입니다.')

728x90