Member-only story
Scatter plot & Correlation
免費閱讀文章:[R]散佈圖與相關係數 Scatter plot & Correlation
在我們收集的資料中,兩個不同的連續變數是否會有某些程度的連結或是影響呢? 比方說喜樂國小的A班的學生數學成績比較高,那英文成績會因此影響嗎? 身高高的人,是否體重也比較重呢? 兩個變數的關係是因著其中一個增加而降低或是減少呢?
有很多方法可以看見兩個變數之間的關係,最直覺的方法可以使用兩個變數畫出散步圖,先觀察兩者的關係。
散佈圖Scatter plot
假設我們現在有兩個變數 x & y ,資料如下
x <- c(11,16,19,18,20,23,19,21,24,29)
y <- c(23,26,34,29,33,27,23,36,30,40)
使用 plot 函數畫出散步圖
plot(x, y)
下面是plot(x, y)畫出的散步圖,可以發現這十個點好像呈現一條線的樣子(從左下到右上) ,可以發現好像x 增加了,y也增加。但是兩個變數的相關性強還是弱,在統計上無法直接用圖形來解釋,我們可以使用相關係數知道他們的關係。
皮爾森相關係數Pearson Correlation
皮爾森相關係數的公式如下:
相關係數的性質:
- 相關係數是一純量(scalar),具有單位不變性的性質
- 0<=|r|<=1
- |r|越靠近1表示X和Y的直線關係越強
- |r|表示表示X和Y的沒有直線關係,但不代表X和Y不具有其他的非直線關係
相關係數的意義:
- r的正負號代表著X與Y的相關性,如果r>0,表示X和Y為正相關,亦代表Y值會隨X值變大而增大;反之,如果r<0,表示X和Y為負相關,亦代表Y值會隨X值變大而縮小。
- |r|<=1。若|r|=1 則表示X和Y在一直線上,|r|越靠近1表示X和Y的直線關係越強;反之,若|r|越靠近0則表示X和Y的直線關係越弱。
- 若 |r|=1.00 代表 兩組變數完全相關
若 |r|介於0.70到0.99 代表 兩組變數高度相關
若 |r|介於0.40到0.69 代表 兩組變數中度相關
若 |r|介於0.10到0.39 代表 兩組變數低度相關
若 |r|小於0.1 代表…