Member-only story
免費閱讀文章:Semi-supervised Learning (半監督式學習)
今日的課程來自於: https://youtu.be/fX_guE7JNnY
所謂的半監督式學習,就是我們有部分的資料是沒有label的,這也接近我們實務上操作的資料
通常遇到的情況,是沒有label的資料遠大於有label的資料。(我們從不缺data,缺的是有label的data,就像可以拍很多照片,但他們是沒有標籤的)
Semi-supervised Learning 可以分成兩種情況:
- Transductive Learning: unlabeled data is the testing data
使用testing data 的 feature,但是不使用testing data的label - Inductive Learning: unlabeled data is not the testing data
就是完全不考慮testing data
要選擇使用哪一種方法,取決於是否已經有testing set
Semi-supervised Learning 的使用unable data往往伴隨著假設,而假設的合理與否,決定了結果的好壞程度
Outline
- Semi-supervised Learning for Generative Model
- Low-density Separation Assumption
- Smoothness Assumption
- Better Representation
Semi-supervised Learning for Generative Model
在監督學習中,我們討論過機率生成模型了,所以可以算出class 1 & class 2 的分佈分別為何,再根據貝氏公式得到新的x 的類別。不過在半監督學習中,unlabeled data會影響最終的決定,劃分兩個class的decision boundary也會隨之變化,(會影響posterior probability,也會影響decision boundary)
因此,在計算上就會有些調整(x^u為unlabeled data)
- 先初始化一組參數: θ = {P(C1),P(C2),u¹,u², ∑}