Member-only story

[SAS]線性迴歸 linear regression

6 min readFeb 26, 2020

之前在 [R]Logistic Regression 羅吉斯迴歸文章中提到線性回歸與羅吉斯迴歸的差別。羅吉斯迴歸主要是分類，而線性迴歸主要是預測。線性迴歸希望是找到一條線，使每一點的資料都盡量靠近這條線(誤差小)。

所謂的迴歸就是分析變數與變數之間的關係，探討自變數(X)與依變數(Y)的關係，目標是使用自變項(X)來預測或推論依變項(Y)。

依變項(Y)為單一的連續變數，自變項(X)可以是類別或是連續變數，也可以是多。
如果只有單一的自變數(X)，為簡單線性迴歸(sample linear regression)。
若有多個自變數(X)，則為多元的線性迴歸(multiple linear regression)。
下圖為兩者的差異，多元的線性迴歸使用k個自變項(X)。

線性迴歸需要滿足四項基本統計假設:

線性關係:依變項(Y)和自變項(X)必須是線性關係。(若不是，可以透過轉換成線性，再進行線性迴歸)
常態性(Normality): 若母體為常態分布，誤差項也為常態。(樣本數足夠時，可以畫直方圖確認。若不夠，可以使用常態檢定)
獨立性(Independency):自變項(X)的誤差項，應為互相獨立的。(若非獨立，會降低統計的檢定立。可以使用殘差的圖形判斷，不會有特定的patten )
變異數同質性(Constant Variance): 變異數若不相等會導致自變項(X)無法有效估計依變項(Y)

使用迴歸分析時需要使用的假設檢定:

迴歸模型的顯著性檢定(F-test):
H0: β0 = β1 = … = βk = 0 (多元線性迴歸使用 k個自變項)
H1: 至少有一個 β ≠ 0
當係數不全為0時，迴歸模型才有預測力。統計值: F
個別迴歸係數的邊際檢定(t-test):
H0: βi = 0 (i=1…k)
H1: βi ≠ 0 (i=1…k)
當係數不全為0時，自變項才有解釋力。統計值: t
判定係數R平方(R square):
R² 為迴歸模型的總變異中可被解釋的百分比，R² 越大越好，若大於0.5代表不錯。
R² = SSR/SST = 1- (SSE/SST)
調整後R平方(adjusted-R square):
當加入的自變項越多，R²會越大，會呈現高估的現象，所以需要調整後的R²。
Adjusted R² = 1 - (SSE/(n-k))/(SST/(n-1))

這次使用的資料是晨晰統計在網站上分享的資料:

依變項(Y)為單一的連續變數，代表同學的閱讀測驗成績。
這邊的自變項(X)有五個，X1~X5分別代表同學的單字成績\片語成績\文法成績\自我期望\智力測驗成績

[SAS]線性迴歸 linear regression

Written by wenwu

No responses yet