토큰화(Tokenization)
자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면,
해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)해야한다.
토큰화 : 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업.
토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다.
출처 : youtu.be/Z_GGVn6LBRI
출처 : wikidocs.net/21698
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
728x90
'AI월드 > ⚙️AI BOOTCAMP_Section 4' 카테고리의 다른 글
Stopwords, 불용어, nlp_Day66(3) (0) | 2021.04.12 |
---|---|
Stemmer, 어간추출, 언어 통합_Day66(2) (0) | 2021.04.12 |
Neural Networks(신경망,딥러닝) 주간 키워드 정리_Day61~64 (0) | 2021.04.08 |
역전파 이해_Day62 (0) | 2021.04.06 |
퍼셉트론,인공신경망 정리_Day61(2) (0) | 2021.04.05 |
댓글