Member-only story
免費閱讀文章:機器學習自學筆記05: Classification | Probabilistic Generative Model
今日的課程來自於: https://youtu.be/CXgbekl66jc
參考筆記:https://github.com/Sakura-gh/ML-notes/blob/master/1_Introduction.md
Classification 概念描述
分類的目標就是要找到一個function,當我們將數值輸入後,輸出可以分類。以寶可夢為例,我們已經知道寶可夢有18種屬性,我們期望可以找到一個function,當我們將某一支寶可夢輸入後,可以知道他的屬性。
如何將寶可夢輸入呢? 需要將每個寶可夢數值化。
特性數值化:用一組數字來描述一隻寶可夢的特性。比方說它有多強(total strong)、它的生命值(HP)、它的攻擊力(Attack)、它的防禦力(Defense)、它的特殊攻擊力(Special Attack)、它的特殊攻擊的防禦力(Special defend)、它的速度(Speed)。所以我們可以將每個寶可夢用以上七種特性來描述。
Classification as Regression?
我們可以使用迴歸分析分類嗎?
假設我們要使用regression 來做classification,在training 時可以假設class 1 的輸出是1;class 2 的輸出是2;當我們使用testing時,regression 的輸出是一個數值,當他接近1 的時候分類為class 1 ,接近-1時分類為class 2
但是這樣做會發生什麼問題?
先講解左圖的例子,假設我們資料的分布如左圖,regression train 出來的model (綠線)可以完美的幫我們分類資料屬性(這是最好的情況)
但是若遇到右圖的例子,在右下角有一群data會影響到model,從右圖中可以看出綠色的線是最好的model 分界線。但是!!! 因為使用綠線的model時,會將右下角的資料做regressiong時output會>1 ,而這些大於1 的點對綠線的model 來說都是error !
所以使用這組資料所training 的model 會是紫色的model ,因為它會"減少" 右下角data所帶來的error
而我們看圖就知道綠色的model是最好的,但是我們無法保證每次資料的性質都在分界線的兩端。所以不建議使用regression 使用在 classification 上面