1. 희소 표현(Sparse Representation)
원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이었습니다.
이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 합니다. 그러니까 원-핫 벡터는 희소 벡터(sparse vector)입니다.
하지만 이러한 표현 방법은 각 단어간 유사성을 표현할 수 없다는 단점이 있었고, 이를 위한 대안으로 단어의 '의미'를 다차원 공간에 벡터화하는 방법을 찾게되는데, 이러한 표현 방법을 분산 표현(distributed representation)이라고 합니다.
그리고 이렇게 분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업은 워드 임베딩(embedding) 작업에 속하기 때문에 이렇게 표현된 벡터 또한 임베딩 벡터(embedding vector)라고 하며, 저차원을 가지므로 바로 앞의 챕터에서 배운 밀집 벡터(dense vector)에도 속합니다.
2. 분산 표현(Distributed Representation)
분산 표현(distributed representation) 방법은 기본적으로 분포 가설(distributional hypothesis)이라는 가정 하에 만들어진 표현 방법입니다. 이 가정은 '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다'라는 가정입니다.
강아지란 단어는 귀엽다, 예쁘다, 애교 등의 단어가 주로 함께 등장하는데 분포 가설에 따라서 저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 됩니다.
분산 표현은 분포 가설을 이용하여 단어들의 셋을 학습하고, 벡터에 단어의 의미를 여러 차원에 분산하여 표현합니다.
이렇게 표현된 벡터들은 원-핫 벡터처럼 벡터의 차원이 단어 집합(vocabulary)의 크기일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원으로 줄어듭니다.
예를 들어 단어가 10,000개 있고 인덱스가 1부터 시작한다고 하였을 때 강아지란 단어의 인덱스는 5였다면 강아지란 단어를 표현하는 원-핫 벡터는 다음과 같았습니다.
Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0]
1이란 값 뒤에는 0이 9,995개가 있는 벡터가 됩니다.
하지만 Word2Vec로 임베딩 된 벡터는 굳이 벡터의 차원이 단어 집합의 크기가 될 필요가 없습니다.
강아지란 단어를 표현하기 위해 사용자가 설정한 차원을 가지는 벡터가 되면서 각 차원은 실수형의 값을 가집니다.
Ex) 강아지 = [0.2 0.3 0.5 0.7 0.2 ... 중략 ... 0.2]
요약하면 희소 표현이 고차원에 각 차원이 분리된 표현 방법이었다면,
분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현합니다.
이런 표현 방법을 사용하면 단어 간 유사도를 계산할 수 있습니다.
출처 : en.wikipedia.org/wiki/Distributional_semantics
Distributional semantics - Wikipedia
From Wikipedia, the free encyclopedia Jump to navigation Jump to search Distributional semantics is a research area that develops and studies theories and methods for quantifying and categorizing semantic similarities between linguistic items based on thei
en.wikipedia.org
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
'AI월드 > ⚙️AI BOOTCAMP_Section 4' 카테고리의 다른 글
시퀀스 투 시퀀스, 어텐션 모델, Attention, Seq2Seq_Day69 (0) | 2021.04.15 |
---|---|
마르코프체인,Markov chains_Day68(4) (0) | 2021.04.14 |
RNN,LSTM,cell_Day68(2) (0) | 2021.04.14 |
Word2Vec,CBOW,skipgram,임베딩_Day68 (0) | 2021.04.14 |
잠재의미분석,LSA_Day67(3) (0) | 2021.04.13 |
댓글