BoW와 달리 Word2Vec과 같은 단어 임베딩 방법은 문맥(context)정보를 보존하는 특징이 있습니다.
BoW는 단어의 존재 여부와 그 빈도 정보를 중요하게 다루는 대신 단어의 순서 정보를 무시하여
단어 주변 문맥정보를 잃어버린다는 단점이 있습니다.
이와 달리 단어 임베딩 방법중 하나인 Word2Vec은 문장에서 인접한 단어들의 정보를 중요시 하여 벡터화할 때 문맥 정보를 보존합니다. 그래서 의미적 또는 구조적으로 비슷한 사용법을 가진 단어들을 알 수 있게 됩니다.
임베딩이란?
자연어를 컴퓨터가 이해할 수 있는 수의 나열인 벡터 형태로 바꾸는 과정 또는 결과



CBOW는 주변에 있는 단어들을 가지고, 중간에 있는 단어들을 예측하는 방법입니다.
반대로, Skip-Gram은 중간에 있는 단어로 주변 단어들을 예측하는 방법입니다.
중심 단어를 예측하기 위해서 앞, 뒤로 몇 개의 단어를 볼지를 결정했다면 이 범위를 윈도우(window)라 한다





Word2Vec는 입력층과 출력층 사이에 하나의 은닉층만이 존재합니다.
이렇게 은닉층(hidden Layer)이 1개인 경우에는 일반적으로 심층신경망(Deep Neural Network)이 아니라
얕은신경망(Shallow Neural Network)이라고 부릅니다
또한 Word2Vec의 은닉층은 일반적인 은닉층과는 달리 활성화 함수가 존재하지 않으며
룩업 테이블이라는 연산을 담당하는 층으로 일반적인 은닉층과 구분하기 위해 투사층(projection layer)이라고 부르기도 합니다.





NNLM Vs. Word2Vec

출처 : youtu.be/UqRCEmrv1gQ
출처 : wikidocs.net/22660
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
'AI월드 > ⚙️AI BOOTCAMP_Section 4' 카테고리의 다른 글
Word2Vec,분포가설,희소표현,분산표현_Day68(3) (0) | 2021.04.14 |
---|---|
RNN,LSTM,cell_Day68(2) (0) | 2021.04.14 |
잠재의미분석,LSA_Day67(3) (0) | 2021.04.13 |
특이값 분해(SVD)의 기하학적 의미, 활용_Day67(2) (0) | 2021.04.13 |
TF-IDF_Day67 (0) | 2021.04.13 |
댓글