Member-only story

機器學習自學筆記03: Where does the error come from? 認識error 的來源，並且知道如何調整model

9 min readMar 31, 2020

今日的課程來自於: https://youtu.be/D_S6y0Jm6dQ

當我們在做機器學習時，使用不同的function set(model) 會得到不同的error，而且越複雜的model不一定在testing會有比較低的error

今天要探討這些error 來自什麼地方，並且如何判斷是哪一種error，並且知道error的來源，就能夠挑選適當的方法來improve model

兩個 Error 的主要來源 : bias & variance

Estimator

理論上，在預測寶可夢CP值中，會有一個最佳的function: f̂(基本上就是寶可夢公司設定的函數)而我們的目標就是從training data 中訓練資料，並且找到最佳的函數 f* (希望他可以很靠近 f̂)

所以f* 就是 f̂的估計量 ( f* is an estimator of f̂ )
我們在求f*當然會希望越接近f̂越好，而兩者的差距就是error
而這error 因兩者導致 1. bias 2.variance

假設今天我們有一組data X ，data X 的平均數是: μ，變異數是: σ²
(E(x)=μ , Var(x)=σ²)

要如何估算μ & σ²
我們生一組 sample 有 N 筆 data ，m為這組sample的平均，但是他不等於μ，但是如果取很多個m，並且取他的期望值就等於μ 。因為我們用m來估計μ ，且m這個估計值是不偏的 (E(m)= μ) 。

在計算而 variance 是 bias 的 ( Var(m)=σ²/N ) ，並且會因為sample size 的大小決定m的變異數。如果今天N比較少，m就會比較分散 ; 如果今天的N比較多，m 就會比較集中。

而估算變異數，先用前面的辦法估算m，在計算(x^n-m)²的平均值(=S²)，但是E(S²)≠σ² ，因為他是biased。如果N越大的話，σ² 跟 s² 估測之間的差距就會變小。