Member-only story

[R]散佈圖與相關係數

wenwu
Dec 31, 2019

--

Scatter plot & Correlation
免費閱讀文章:[R]散佈圖與相關係數 Scatter plot & Correlation

在我們收集的資料中,兩個不同的連續變數是否會有某些程度的連結或是影響呢? 比方說喜樂國小的A班的學生數學成績比較高,那英文成績會因此影響嗎? 身高高的人,是否體重也比較重呢? 兩個變數的關係是因著其中一個增加而降低或是減少呢?

有很多方法可以看見兩個變數之間的關係,最直覺的方法可以使用兩個變數畫出散步圖,先觀察兩者的關係。

散佈圖Scatter plot

假設我們現在有兩個變數 x & y ,資料如下

x <- c(11,16,19,18,20,23,19,21,24,29)
y <- c(23,26,34,29,33,27,23,36,30,40)

使用 plot 函數畫出散步圖

plot(x, y)

下面是plot(x, y)畫出的散步圖,可以發現這十個點好像呈現一條線的樣子(從左下到右上) ,可以發現好像x 增加了,y也增加。但是兩個變數的相關性強還是弱,在統計上無法直接用圖形來解釋,我們可以使用相關係數知道他們的關係。

scatter plot

皮爾森相關係數Pearson Correlation

皮爾森相關係數的公式如下:

相關係數的性質:

  1. 相關係數是一純量(scalar),具有單位不變性的性質
  2. 0<=|r|<=1
  3. |r|越靠近1表示X和Y的直線關係越強
  4. |r|表示表示X和Y的沒有直線關係,但不代表X和Y不具有其他的非直線關係

相關係數的意義:

  1. r的正負號代表著X與Y的相關性,如果r>0,表示X和Y為正相關,亦代表Y值會隨X值變大而增大;反之,如果r<0,表示X和Y為負相關,亦代表Y值會隨X值變大而縮小。
  2. |r|<=1。若|r|=1 則表示X和Y在一直線上,|r|越靠近1表示X和Y的直線關係越強;反之,若|r|越靠近0則表示X和Y的直線關係越弱。
  3. 若 |r|=1.00 代表 兩組變數完全相關
    若 |r|介於0.70到0.99 代表 兩組變數高度相關
    若 |r|介於0.40到0.69 代表 兩組變數中度相關
    若 |r|介於0.10到0.39 代表 兩組變數低度相關
    若 |r|小於0.1 代表…

--

--

wenwu
wenwu

Written by wenwu

離開學校之後,需要一點激勵來持續學習的動力。想到什麼寫什麼,趁著還沒忘記之前通通都寫下來。

No responses yet