Member-only story

[SAS]線性迴歸 linear regression

wenwu
6 min readFeb 26, 2020

免費閱讀文章:[SAS]線性迴歸 linear regression

之前在 [R]Logistic Regression 羅吉斯迴歸 文章中提到 線性回歸與羅吉斯迴歸的差別。羅吉斯迴歸主要是分類,而線性迴歸主要是預測。線性迴歸希望是找到一條線,使每一點的資料都盡量靠近這條線(誤差小)。

所謂的迴歸就是分析變數與變數之間的關係,探討自變數(X)與依變數(Y)的關係,目標是使用自變項(X)來預測或推論依變項(Y)。

依變項(Y)為單一的連續變數,自變項(X)可以是類別或是連續變數,也可以是多。
如果只有單一的自變數(X),為簡單線性迴歸(sample linear regression)。
若有多個自變數(X),則為多元的線性迴歸(multiple linear regression)。
下圖為兩者的差異,多元的線性迴歸使用k個自變項(X)。

線性迴歸需要滿足四項基本統計假設:

  1. 線性關係:依變項(Y)和自變項(X)必須是線性關係。(若不是,可以透過轉換成線性,再進行線性迴歸)
  2. 常態性(Normality): 若母體為常態分布,誤差項也為常態。(樣本數足夠時,可以畫直方圖確認。若不夠,可以使用常態檢定)
  3. 獨立性(Independency):自變項(X)的誤差項,應為互相獨立的。(若非獨立,會降低統計的檢定立。可以使用殘差的圖形判斷,不會有特定的patten )
  4. 變異數同質性(Constant Variance): 變異數若不相等會導致自變項(X)無法有效估計依變項(Y)

使用迴歸分析時需要使用的假設檢定:

  1. 迴歸模型的顯著性檢定(F-test):
    H0: β0 = β1 = … = βk = 0 (多元線性迴歸使用 k個自變項)
    H1: 至少有一個 β ≠ 0
    當係數不全為0時,迴歸模型才有預測力。統計值: F
  2. 個別迴歸係數的邊際檢定(t-test):
    H0: βi = 0 (i=1…k)
    H1: βi ≠ 0 (i=1…k)
    當係數不全為0時,自變項才有解釋力。統計值: t
  3. 判定係數R平方(R square):
    R² 為迴歸模型的總變異中可被解釋的百分比,R² 越大越好,若大於0.5代表不錯。
    R² = SSR/SST = 1- (SSE/SST)
  4. 調整後R平方(adjusted-R square):
    當加入的自變項越多,R²會越大,會呈現高估的現象,所以需要調整後的R²。
    Adjusted R² = 1 - (SSE/(n-k))/(SST/(n-1))

這次使用的資料是晨晰統計在網站上分享的資料:

依變項(Y)為單一的連續變數,代表同學的閱讀測驗成績。
這邊的自變項(X)有五個,X1~X5分別代表同學的 單字成績\片語成績\文法成績\自我期望\智力測驗成績

--

--

wenwu
wenwu

Written by wenwu

離開學校之後,需要一點激勵來持續學習的動力。想到什麼寫什麼,趁著還沒忘記之前通通都寫下來。

No responses yet