본문 바로가기
AI월드/⚙️AI BOOTCAMP_Section 4

NLP 입문, tokenization_Day66

by khalidpark 2021. 4. 12.

토큰화(Tokenization)

 

자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 

해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)해야한다. 


토큰화 : 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업.

토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다.

 

출처 : youtu.be/Z_GGVn6LBRI

출처 : wikidocs.net/21698

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

728x90

댓글