텍스트전처리

2022.02.20 - [머신러닝 | 딥러닝/텍스트 분석] - [텍스트 분석] 2-(2). 텍스트 전처리 - 불용어 제거 저번 불용어 제거 포스팅에 이어서 Stemming & Lemmatization에 대해 적어보려고 합니다! 1. Cleansing(클렌징) 2. Tokenization(토큰화) 3. 필터링 / stopwords(불용어) 제거 / 철자 수정 4. Stemming & Lemmatization(어근 추출) 4. Stemming과 Lemmatization : Stemming과 Lemmatization은 단어의 원형을 찾아주는 작업을 한다! *둘의 차이는 정교함의 차이와 이에 따르 작업 수행 속도의 차이.. 예를들어 영어 단어 work는 과거형으로 worked, 3인칭 단수일 때는 works, ..
이번 포스팅에서는 저번 글에 이어서 텍스트 전처리를 이어 적어보려고 한다! 2022.02.20 - [머신러닝 | 딥러닝/텍스트 분석] - [텍스트 분석] 2-(1). 텍스트 전처리 - 클렌징, 토큰화 [텍스트 분석] 2-(1). 텍스트 전처리 - 클렌징, 토큰화 2022.02.19 - [머신러닝 | 딥러닝/텍스트 분석] - [텍스트 분석] 1. 텍스트 분석의 이해 [텍스트 분석] 1. 텍스트 분석의 이해 프로젝트를 하면서 텍스트 분석을 접해볼 기회가 있었는데 완전한 이해를 xod22.tistory.com 1. Cleansing(클렌징) 2. Tokenization(토큰화) 3. 필터링 / stopwords(불용어) 제거 / 철자 수정 4. Stemming & Lemmatization 3. StopWord..
2022.02.19 - [머신러닝 | 딥러닝/텍스트 분석] - [텍스트 분석] 1. 텍스트 분석의 이해 [텍스트 분석] 1. 텍스트 분석의 이해 프로젝트를 하면서 텍스트 분석을 접해볼 기회가 있었는데 완전한 이해를 하고 사용한 것은 아니라 오류도 많이 접해보았고 그래서 더욱 차근차근 텍스트 분석에 대해 공부해보려고 합니다! 텍 xod22.tistory.com 저번 포스팅에서 텍스트 분석의 이해에 대해 간단히 적어보았는데요! 오늘은 텍스트 분석의 프로세스 중 첫번째인 텍스트 전처리 및 정규화에 대해 공부해보려고 합니다! 문서에서 단어 기반으로 하여 피처를 뽑은 후에 피처에 벡터 값을 부여하는 작업이 필요하다. 하지만 피처에 벡터값을 부여하는 작업을 하기전! 본 데이터에 대한 전처리 작업이 필수적이다..! ..
xod22
'텍스트전처리' 태그의 글 목록