Member-only story

機器學習自學筆記05: Classification | Probabilistic Generative Model

11 min readApr 30, 2020

免費閱讀文章：機器學習自學筆記05: Classification | Probabilistic Generative Model

今日的課程來自於: https://youtu.be/CXgbekl66jc
參考筆記:https://github.com/Sakura-gh/ML-notes/blob/master/1_Introduction.md

Classification 概念描述

分類的目標就是要找到一個function，當我們將數值輸入後，輸出可以分類。以寶可夢為例，我們已經知道寶可夢有18種屬性，我們期望可以找到一個function，當我們將某一支寶可夢輸入後，可以知道他的屬性。

如何將寶可夢輸入呢? 需要將每個寶可夢數值化。

特性數值化:用一組數字來描述一隻寶可夢的特性。比方說它有多強(total strong)、它的生命值(HP)、它的攻擊力(Attack)、它的防禦力(Defense)、它的特殊攻擊力(Special Attack)、它的特殊攻擊的防禦力(Special defend)、它的速度(Speed)。所以我們可以將每個寶可夢用以上七種特性來描述。

Classification as Regression?

我們可以使用迴歸分析分類嗎?

假設我們要使用regression 來做classification，在training 時可以假設class 1 的輸出是1；class 2 的輸出是2；當我們使用testing時，regression 的輸出是一個數值，當他接近1 的時候分類為class 1 ，接近-1時分類為class 2

但是這樣做會發生什麼問題?

先講解左圖的例子，假設我們資料的分布如左圖，regression train 出來的model (綠線)可以完美的幫我們分類資料屬性(這是最好的情況)

但是若遇到右圖的例子，在右下角有一群data會影響到model，從右圖中可以看出綠色的線是最好的model 分界線。但是!!! 因為使用綠線的model時，會將右下角的資料做regressiong時output會>1 ，而這些大於1 的點對綠線的model 來說都是error !
所以使用這組資料所training 的model 會是紫色的model ，因為它會"減少" 右下角data所帶來的error

而我們看圖就知道綠色的model是最好的，但是我們無法保證每次資料的性質都在分界線的兩端。所以不建議使用regression 使用在 classification 上面

機器學習自學筆記05: Classification | Probabilistic Generative Model

Classification 概念描述

Classification as Regression?

Written by wenwu

No responses yet