Unsupervised Learning: Word Embedding

wenwu
8 min readMay 12, 2021

免費閱讀文章:Unsupervised Learning: Word Embedding

Word Embedding(詞嵌入)就是將文字轉成向量的方法,也是降維(Dimension Reducion)的典型應用,那要如何用vector來表示一個word呢?

1-of-N Encoding

最傳統的方法就是1-of-N Encoding,這個vector的維度就等於世界所有單辭的數目,對每個單詞來說,只要某一個維度=1,其他等於0即可。
但是我們無法取得文字資訊,也無法建立同類word的聯繫

Word Class

word class將同類性質的word進行分類(clustering)。但是分類事不夠的,不同class之間的聯繫無法有效的表示出來

Word Embedding

Word Embedding把每一個word都投影到高維空間上,當然這個空間的維度要遠比1-of-N Encoding的維度低,假如後者有10萬維,那前者只需要50~100維就夠了,這實際上也是DimensionReduction的過程

類似語義(semantic)的詞彙,在這個word embedding的投影空間上是比較接近的,而且該空間裡的每一維都可能有特殊的含義。假設詞嵌入的投影空間如下圖所示,則橫軸代表了生物與其它東西之間的區別,而縱軸則代表了會動的東西與靜止的東西之間的差別

word embedding是一個無監督的方法(unsupervised approach),只要讓機器閱讀大量的文章,它就可以知道每一個詞彙embedding之後的特徵向量應該長什麼樣子

我們的任務就是訓練一個neural network,input是詞彙,output則是它所對應的word embedding vector,實際訓練的時候我們只有data的input,該如何解這類問題呢?

basic idea

word embedding 基本的精神就是,每一個詞彙的涵義都可以根據上下文來的到。有兩種做法來找出word embedding 的vector,分別是count based 和 prediction based

count based

假如w_i和w_j這兩個詞彙常常在同一篇文章中出現(co-occur),它們的word…

--

--

wenwu

離開學校之後,需要一點激勵來持續學習的動力。想到什麼寫什麼,趁著還沒忘記之前通通都寫下來。