Member-only story
非監督式學習: 主成分分析(Principal components analysis,PCA)
免費閱讀文章:Unsupervised Learning: PCA
上篇提到PCA是降維的一種方法,他的input x和output z之間是linear transform,即z=Wx,PCA要做的,就是根據x把W給找出來(z未知)
今日的課程來自於: https://youtu.be/CXgbekl66jc
PCA for 1-D
為了簡化問題,這裡我們假設z是1維的vector,也就是把x投影到一維空間,此時w是一個row vector : z_1=w¹.x ,其中w¹表示w的第一個row vector,假設w¹的長度為1,即||w¹||_2=1,此時z_1就是x在w¹方向上的投影
基本上,就是將二維的x,投影到一維的z,並且符合z_1=w¹.x
那我們要找甚麼樣的w¹呢?
- 我們希望找到一個projection的方向,他可以讓projection後的variance越大越好
- 我們不希望projection使這些data point 通通擠在一起,導致點和點之間的資訊消失
- 其中,variance的計算公式: Var(z_1)=1/N Σ(z_1-mean(z_1))²,||w¹||_2 = 1
PCA for n-D
當然不只投影到一維空間,還可以投影到更高維的空間
同樣也滿足,z=Wx。只不過 z = z1、z2、….. ,而W也是,並且W 是一個正交矩陣(orthogonal matrix)
找到的w¹必須讓var(z_1)最大,而w²在不等於w¹的情況下,同樣要使var(z_2)最大
Lagrange multiplier
基本上可以使用現有的函數計算,這邊介紹Lagrange multiplier求解PCA的結論
- w¹ 是S=Cov(x)這個matrix的特徵向量,對應最大的特徵值λ_1