Unsupervised Learning: Word Embedding

8 min readMay 12, 2021

Word Embedding(詞嵌入)就是將文字轉成向量的方法，也是降維(Dimension Reducion)的典型應用，那要如何用vector來表示一個word呢?

1-of-N Encoding

最傳統的方法就是1-of-N Encoding，這個vector的維度就等於世界所有單辭的數目，對每個單詞來說，只要某一個維度=1，其他等於0即可。
但是我們無法取得文字資訊，也無法建立同類word的聯繫

word class將同類性質的word進行分類(clustering)。但是分類事不夠的，不同class之間的聯繫無法有效的表示出來

Word Embedding把每一個word都投影到高維空間上，當然這個空間的維度要遠比1-of-N Encoding的維度低，假如後者有10萬維，那前者只需要50~100維就夠了，這實際上也是DimensionReduction的過程

類似語義(semantic)的詞彙，在這個word embedding的投影空間上是比較接近的，而且該空間裡的每一維都可能有特殊的含義。假設詞嵌入的投影空間如下圖所示，則橫軸代表了生物與其它東西之間的區別，而縱軸則代表了會動的東西與靜止的東西之間的差別

word embedding是一個無監督的方法(unsupervised approach)，只要讓機器閱讀大量的文章，它就可以知道每一個詞彙embedding之後的特徵向量應該長什麼樣子

我們的任務就是訓練一個neural network，input是詞彙，output則是它所對應的word embedding vector，實際訓練的時候我們只有data的input，該如何解這類問題呢？

word embedding 基本的精神就是，每一個詞彙的涵義都可以根據上下文來的到。有兩種做法來找出word embedding 的vector，分別是count based 和 prediction based

假如w_i和w_j這兩個詞彙常常在同一篇文章中出現(co-occur)，它們的word…