[Python] 컨텐츠 기반 추천(CB) 실습 - TMDB 5000 영화 데이터 세트

xod22 2022. 3. 8. 00:58

728x90

2022.01.14 - [머신러닝 | 딥러닝/추천시스템] - [K-Data x 러닝스푼즈] 2-1. 컨텐츠 기반 추천(CB), TF-IDF

[K-Data x 러닝스푼즈] 2-1. 컨텐츠 기반 추천(CB), TF-IDF

# 컨텐츠 기반 추천? : CB(Content-based Recommendation) 유저 A라는 사람이 과거에 선호한 아이템의 메타데이터를 가지고 비슷한 아이템을 유저 A에게 추천한다. => 아이템의 메타데이터의 예) - 영화 : 배

xod22.tistory.com

CB에 대한 이론은 다뤄보았는데 이번엔 직접 데이터를 활용하여 컨텐츠 기반 추천(CB)를 실습해보려고 합니다!

CB(Content-based Recommendation)

: 먼저 실습에 앞서 간단하게 다시 CB(Content-based Recommendation, 컨텐츠기반추천)에 대해 설명하자면

유저 A라는 사람이 과거에 선호한 아이템의 메타데이터를 가지고 비슷한 아이템을 유저 A에게 추천하는 방식입니다.

* 아이템 프로파일벡터를 통해 아이템끼리의 유사도를 측정하고

유사도가 높은 아이템을 추천하는 과정으로 추천이 진행됩니다!

실습 - 방법1

1. 패키지 임포트 및 데이터 불러오기

https://www.kaggle.com/tmdb/tmdb-movie-metadata

TMDB 5000 Movie Dataset

Metadata on ~5,000 movies from TMDb

www.kaggle.com

캐글 링크에서 tmdb_5000_movies.csv 데이터를 다운받습니다.

import pandas as pd
import numpy as np
import warnings; warnings.filterwarnings('ignore')

movies=pd.read_csv('tmdb_5000_movies.csv')
print(movies.shape)
movies.head(1)

->데이터가 4803개의 레코드와 20개의 피처로 구성되어있음

~필요한 컬럼만 저장~

콘텐츠 기반 필터링은 사용자가 좋아하는 영화와 비슷한 특성/속성, 구성 요소 등을 가진 다르 영화를 추천해주는 방식입니다..!

따라서 id, title, genres, vote_average(평점), vote_count, popularity, keywords, overview 컬럼만 사용해보도록 하겠습니다.

movies_df=movies[['id','title', 'genres', 'vote_average', 'vote_count', 'popularity', 'keywords', 'overview']]

~장르, 키워드 컬럼의 형태 확인~

movies_df[['genres','keywords']]

리스트 내부에 딕셔너리가 있는 형태의 문자열로 저장되어 있습니다..

~하나의 행 살펴보기~

: 컬럼의 간격을 넓혀 많은 데이터가 출력될 수 있도록 하여 행 한개만 출력해보겠습니다!

pd.set_option('max_colwidth', 100)
#행 한개만 출력해봄
movies_df[['genres', 'keywords']][:1]

이 개별 장르의 명칭은 딕셔너리의 키(key)인 "name"으로 추출할 수 있습니다.

~genres(장르)컬럼의 문자열을 분해-> 개별 장르를 파이썬 리스트 객체로 추출~

: genres, keywords 컬럼은 문자열이 아닌 리스트 내부에 여러 장르 딕셔너리로 구성된 객체가됨

from ast import literal_eval

movies_df['genres']=movies_df['genres'].apply(literal_eval)
movies_df['keywords']=movies_df['keywords'].apply(literal_eval)

#컬럼에서 ['Action']/['Adventure']과 같은 장르명만 리스트의 객체로 추출

movies_df['genres']=movies_df['genres'].apply(lambda x : [y['name'] for y in x])
movies_df['keywords']=movies_df['keywords'].apply(lambda x : [y['name'] for y in x])

#확인
movies_df[['genres', 'keywords']][:1]

잘 추출된 것을 확인할 수 있다.

2. 장르값의 CountVectorizer

#CB : 장르값으로 유사도를 비교한 뒤 높은 평점을 갖는 영화를 추천
#genres컬럼을 문자열로 변경한 뒤 CountVectorizer로 피처 벡터화한 행렬값에 코사인 유사도를 적용해 영화별 유사성 판단

from sklearn.feature_extraction.text import CountVectorizer

#CountVectorizer를 적용하기 위해 공백문자로 word단위가 구분되는 문자열로 변환
movies_df['genres_literal']=movies_df['genres'].apply(lambda x : (' ').join(x))

~변환 확인~

#변환 확인
print(movies_df[['genres']][:1])
print(movies_df[['genres_literal']][:1])

잘 변환되었음을 확인

~CountVectorizer 적용~

#CountVectorizer함수->count_vect이라는 함수명으로 생성
count_vect=CountVectorizer(min_df=0, ngram_range=(1,2))
#min_df : 단어장에 포함되기 위한 최소빈도

#'genres_literal'컬럼으로 CountVector생성
genre_mat=count_vect.fit_transform(movies_df['genres_literal'])
print(genre_mat.shape)

: 4803개 컬럼이었으므로 4803개 레코드, 276개의 개별단어 피처로 구성된 피처벡터 행렬 생성

3. 장르값의 코사인 유사도

from sklearn.metrics.pairwise import cosine_similarity
genre_sim=cosine_similarity(genre_mat, genre_mat)
print(genre_sim.shape)

#2개 행만 확인해보기!
print(genre_sim[:2])

~유사도 값이 높은 인덱스 추출~

: 유사도 값이 높은 순으로 위치 인덱스 추출(?)

genre_sim_sorted_ind=genre_sim.argsort()[:, ::-1]

print(genre_sim_sorted_ind[:1])

여기서 ::-1은 내림차순이라는 의미

첫번째 행만 확인해보면 유사도 값이 높은 인덱스값이 0(본인)-> 3494번째 행-> 813번째 행...순서대로 나열된 것을 확인할 수 있다..!

4. 장르 유사도에 따라 영화를 추천

# 장르 유사도에 따라 영화를 추천하는 함수 find_sim_movie()생성
def find_sim_movie(df, sorted_ind, title_name, top_n=10):
    
    #인자로 입력된 movies_df(데이터프레임)에서 입력받은 'title'(제목) 컬럼이 입력된 값만 추출하여 저장
    title_movie = df[df['title'] == title_name]
    
    #title_named를 가진 데이터 프레임의 index 객체를 ndarray로 변환 -> 몇번째 영화인지? 인덱스 저장
    #sorted_ind(유사도값) 인자로 입력된 genre_sim_sorted_ind 객체에서 유사도 순으로 top_n개의 index  추출
    title_index = title_movie.index.values
    similar_indexes = sorted_ind[title_index, :(top_n)]
    
    #추출된 top_n index를 출력. top_n index는 2차원 데이터
    print(similar_indexes)
    #데이터 프레임에서 index로 사용하기 위해 1차원 array로 변경
    similar_indexes = similar_indexes.reshape(-1)
    
    #원래 df중에 인덱스에 포함된 행을 return
    return df.iloc[similar_indexes]

위에서 만든 find_sim_movie() 함수를 사용해 영화 'The Godfather(대부)'와 장르별로 유사한 영화 10개를 추천

similar_movies = find_sim_movie(movies_df, genre_sim_sorted_ind, 'The Godfather',10)
similar_movies[['title', 'vote_average']]

다음과 같은 추천결과를 제공한다..!

결과를 보면 '대부 2편'이 가장 먼저 추천되었습니다.

하지만 'Light Sleeper', 'Mi America', 'Kids' 등 대부를 좋아하는 고객에게 추천하기 어려운 영화도 있습니다.

'Light Sleeper'의 경우 평점이 낮은 편이고, 'Mi America'의 경우 평점이 0점입니다..!

이러한 추천 결과를 개선하기 위해 좀 더 많은 후보군을 선정한 뒤 평점에 따라 필터링해서 최종 추천하는 방식으로 변경하여 다시 구현해보겠습니다.

실습 - 방법2 (가중치를 고려)

: 실습1과 같은 데이터를 가지고 좀 더 많은 후보군 선정, 평점에 따라 필터링하는 방법을 사용해보겠습니다!

1. 데이터 확인

# vote_average : 영화의 평점 평균(0~10점)

# vote_count : 평가 횟수

movies_df[['title', 'vote_average','vote_count']].sort_values('vote_average', ascending=False)[:10]
# 평점이 높은 순서대로(내림차순) 정렬

평가 횟수가 매우 적은 영화들이 상위권에 있다는 것을 확인.

이렇게 왜곡된 평점 데이터를 회피하기 위해 가중치가 부여된 평점을 사용!

2. 기존 평점을 가중 평점으로 변경!

- v(vote_count) : 개별 영화에 평점을 투표한 횟수-

- m : 평점을 부여하기 위한 최소 투표 횟수

- R(vote_average) : 개별 영화에 대한 평균 평점

- C(vote_average.mean()) : 전체 영화에 대한 평균 평점

여기서 m값은 투표 횟수에 따른 가중치를 조절하는 역할을 하는데

m값을 높이면 평점투표 횟수가 많은 영화에 더 많은 가중 평균을 부여합니다..!

*평가한 사람이 많을 수록 신뢰할 수 있다는 의미(?)

C=movies_df['vote_average'].mean()
#m값은 상위 60퍼센트에 해당하는 횟수를 기준
m=movies_df['vote_count'].quantile(0.6)

print('C :', round(C,3), 'm: ', round(m,3))

~평점을 가중치 평점으로 바꾸는 함수~

def weighted_vote_average(record):
    v=record['vote_count']
    R=record['vote_average']
    
    return ((v/(v+m))*R)+((m/(m+v))*C)

~함수 적용~

: 가중평점은 'weighted_vote' 컬럼을 새로 만들어 값을 넣어주었다..!

movies_df['weighted_vote']=movies_df.apply(weighted_vote_average, axis=1)

새롭게 부여된 weighted_vote 평점이 높은 순으로 상위 10개의 영화를 출력해보겠습니다!

movies_df[['title', 'vote_average', 'weighted_vote', 'vote_count']].sort_values('weighted_vote', ascending=False)[:10]

평가한 사람이 많은 영화가 상위권에 있네욥..!

3. 장르 유사성이 높은 영화 top_n의 2배수 -> weighted_vote값이 높은 순으로 추출

~함수 정의~

#가중치평점이 포함된 새로운 함수 정의
def find_sim_movie(df, sorted_ind, title_name, top_n=10):
    title_movie=df[df['title']==title_name]
    title_index=title_movie.index.values
    
    #top_n의 2배에 해당하는 장르 유사성이 높은 index 추출
    similar_indexes=sorted_ind[title_index, :(top_n*2)]
    similar_indexes=similar_indexes.reshape(-1)
    #기준 영화 index는 제외(자기자신 제외(?))
    similar_indexes=similar_indexes[similar_indexes !=title_index]
    
    #top_n의 2배에 해당하는 후보군에서 weighted_vote 높은 순으로 top_n만큼 추출
    return df.iloc[similar_indexes].sort_values('weighted_vote', ascending=False)[:top_n]

~함수 적용~

similar_movies=find_sim_movie(movies_df, genre_sim_sorted_ind, 'The Godfather', 10)
similar_movies[['title', 'vote_average', 'weighted_vote']]

이전 추천 영화보다 훨씬 나은 영화가 추천되었습니다..!

728x90