본문 바로가기
728x90

NLP5

NLP with spaCy_Day66(5) # Import the English language class from spacy.lang.en import English # Create the nlp object nlp = English() # Process a text doc = nlp("This is a sentence.") # Print the document text print(doc.text) # Import the Spanish language class from spacy.lang.es import Spanish ​ # Create the nlp object nlp = Spanish() ​ # Process a text (this is Spanish for: "How are you?") doc = nlp("¿Cómo estás?") ​.. 2021. 4. 12.
NLP, 텍스트 전처리 기본개념_Day66(4) NLP(Natural Language Processing) 코퍼스(Corpus, 말뭉치)란 특정한 목적을 가지고 수집한 텍스트 데이터 문서(Document)란 문장(Sentence)들의 집합 문장(Sentence)이란 여러개의 토큰(단어, 형태소 등)으로 구성된 문자열. 마침표, 느낌표 같은 기호로 주로 구분됨 어휘집합(Vocabulary)는 코퍼스에 있는 모든 문서, 문장을 토큰화한 후 중복을 제거한 토큰의 집합 2021. 4. 12.
Stopwords, 불용어, nlp_Day66(3) 갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요합니다. 여기서 큰 의미가 없다라는 것은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 말합니다. 예를 들면, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우가 있습니다. 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있습니다. 출처 : youtu.be/E63RZli2F2o 출처 : wikidocs.net/22530 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikido.. 2021. 4. 12.
Stemmer, 어간추출, 언어 통합_Day66(2) 어간추출 어간(Stem)을 추출하는 작업을 어간 추출(stemming)이라고 합니다. 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있습니다. 다시 말해, 이 작업은 섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있습니다. 출처 : youtu.be/gBwGPI0srBE 출처 : wikidocs.net/21707 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 2021. 4. 12.
NLP 입문, tokenization_Day66 토큰화(Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)해야한다. 토큰화 : 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 출처 : youtu.be/Z_GGVn6LBRI 출처 : wikidocs.net/21698 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 2021. 4. 12.
728x90