Member-only story
免費閱讀文章:[SAS]線性迴歸 linear regression
之前在 [R]Logistic Regression 羅吉斯迴歸 文章中提到 線性回歸與羅吉斯迴歸的差別。羅吉斯迴歸主要是分類,而線性迴歸主要是預測。線性迴歸希望是找到一條線,使每一點的資料都盡量靠近這條線(誤差小)。
所謂的迴歸就是分析變數與變數之間的關係,探討自變數(X)與依變數(Y)的關係,目標是使用自變項(X)來預測或推論依變項(Y)。
依變項(Y)為單一的連續變數,自變項(X)可以是類別或是連續變數,也可以是多。
如果只有單一的自變數(X),為簡單線性迴歸(sample linear regression)。
若有多個自變數(X),則為多元的線性迴歸(multiple linear regression)。
下圖為兩者的差異,多元的線性迴歸使用k個自變項(X)。
線性迴歸需要滿足四項基本統計假設:
- 線性關係:依變項(Y)和自變項(X)必須是線性關係。(若不是,可以透過轉換成線性,再進行線性迴歸)
- 常態性(Normality): 若母體為常態分布,誤差項也為常態。(樣本數足夠時,可以畫直方圖確認。若不夠,可以使用常態檢定)
- 獨立性(Independency):自變項(X)的誤差項,應為互相獨立的。(若非獨立,會降低統計的檢定立。可以使用殘差的圖形判斷,不會有特定的patten )
- 變異數同質性(Constant Variance): 變異數若不相等會導致自變項(X)無法有效估計依變項(Y)
使用迴歸分析時需要使用的假設檢定:
- 迴歸模型的顯著性檢定(F-test):
H0: β0 = β1 = … = βk = 0 (多元線性迴歸使用 k個自變項)
H1: 至少有一個 β ≠ 0
當係數不全為0時,迴歸模型才有預測力。統計值: F - 個別迴歸係數的邊際檢定(t-test):
H0: βi = 0 (i=1…k)
H1: βi ≠ 0 (i=1…k)
當係數不全為0時,自變項才有解釋力。統計值: t - 判定係數R平方(R square):
R² 為迴歸模型的總變異中可被解釋的百分比,R² 越大越好,若大於0.5代表不錯。
R² = SSR/SST = 1- (SSE/SST) - 調整後R平方(adjusted-R square):
當加入的自變項越多,R²會越大,會呈現高估的現象,所以需要調整後的R²。
Adjusted R² = 1 - (SSE/(n-k))/(SST/(n-1))
這次使用的資料是晨晰統計在網站上分享的資料:
依變項(Y)為單一的連續變數,代表同學的閱讀測驗成績。
這邊的自變項(X)有五個,X1~X5分別代表同學的 單字成績\片語成績\文法成績\自我期望\智力測驗成績