NLP(Natural Language Processing)
코퍼스(Corpus, 말뭉치)란 특정한 목적을 가지고 수집한 텍스트 데이터
문서(Document)란 문장(Sentence)들의 집합
문장(Sentence)이란 여러개의 토큰(단어, 형태소 등)으로 구성된 문자열. 마침표, 느낌표 같은 기호로 주로 구분됨
어휘집합(Vocabulary)는 코퍼스에 있는 모든 문서, 문장을 토큰화한 후 중복을 제거한 토큰의 집합

728x90
'AI월드 > ⚙️AI BOOTCAMP_Section 4' 카테고리의 다른 글
TF-IDF_Day67 (0) | 2021.04.13 |
---|---|
NLP with spaCy_Day66(5) (0) | 2021.04.12 |
Stopwords, 불용어, nlp_Day66(3) (0) | 2021.04.12 |
Stemmer, 어간추출, 언어 통합_Day66(2) (0) | 2021.04.12 |
NLP 입문, tokenization_Day66 (0) | 2021.04.12 |
댓글