갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요합니다.
여기서 큰 의미가 없다라는 것은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 말합니다.
예를 들면, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우가 있습니다.
이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있습니다.
출처 : youtu.be/E63RZli2F2o
출처 : wikidocs.net/22530
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
728x90
'AI월드 > ⚙️AI BOOTCAMP_Section 4' 카테고리의 다른 글
NLP with spaCy_Day66(5) (0) | 2021.04.12 |
---|---|
NLP, 텍스트 전처리 기본개념_Day66(4) (0) | 2021.04.12 |
Stemmer, 어간추출, 언어 통합_Day66(2) (0) | 2021.04.12 |
NLP 입문, tokenization_Day66 (0) | 2021.04.12 |
Neural Networks(신경망,딥러닝) 주간 키워드 정리_Day61~64 (0) | 2021.04.08 |
댓글