🔗 相關分析
Pearson 相關 + 散佈圖 + 迴歸線
什麼是相關分析?
相關分析衡量的是兩個變數之間線性關聯的強度與方向。它用一個數值——相關係數(correlation coefficient, r)——來摘要兩個變數共同變動的模式。
相關係數的範圍是 -1 到 +1:
- r = +1:完美正相關。X 增加,Y 一定跟著等比例增加。
- r = 0:無線性相關。X 和 Y 的變動之間沒有可預測的線性模式。
- r = -1:完美負相關。X 增加,Y 一定跟著等比例減少。
相關強度的經驗法則
根據 Cohen(1988)的分類:
| |r| 範圍 | 強度 | 實務意義 |
|---|---|---|
| 0.10 – 0.29 | 弱相關 | 關聯存在但不明顯,單獨看可能察覺不到 |
| 0.30 – 0.49 | 中度相關 | 關聯可辨識,有一定預測價值 |
| 0.50 – 1.00 | 強相關 | 關聯明確,兩變數密切連動 |
但同樣地,這些門檻因領域而異。在心理學中 r = 0.3 已算不錯,在物理實驗中 r = 0.9 可能才及格。永遠結合研究情境來解讀。
另一個實用指標是 r²(決定係數),代表「X 能解釋 Y 變異的比例」。例如 r = 0.5 時,r² = 0.25,意味著 X 只能解釋 Y 的 25% 變異,還有 75% 的變異來自其他因素。這個角度通常比直接看 r 更能幫助你判斷關聯的實際意義。
Pearson vs Spearman
Pearson 相關係數(Pearson's r)
衡量兩個連續變數之間的線性關係。它的假設是:
- 兩個變數都是連續型(interval 或 ratio scale)
- 兩個變數大致呈常態分佈
- 兩變數之間是線性關係(如果是曲線關係,Pearson's r 會低估真實的關聯強度)
- 沒有嚴重的離群值(離群值可以劇烈扭曲 Pearson's r)
適用場景:身高 vs. 體重、年齡 vs. 血壓、劑量 vs. 反應等兩個連續變數的關聯分析。
Spearman 等級相關係數(Spearman's rho, ρ)
衡量兩個變數之間的單調關係(monotonic relationship)。它不看原始數值,而是先將資料轉換為等級(rank),再計算等級之間的 Pearson 相關。因此:
- 不要求常態分佈
- 不要求嚴格線性——只要 X 增加時 Y 也大致增加(或減少),即使不是等比例的,Spearman 都能偵測到
- 對離群值較穩健——因為極端值轉換為等級後,影響被壓縮了
- 適用於順序資料(ordinal data),例如疼痛量表(1-10)、滿意度評分等
怎麼選?
簡單的決策流程:
- 兩個變數都是連續型且大致常態?→ 先用 Pearson
- 有一個是順序型(ordinal)?→ 用 Spearman
- 散佈圖看起來是曲線而非直線?→ 用 Spearman(或考慮非線性迴歸)
- 有明顯離群值且無法合理移除?→ 用 Spearman
- 不確定?→ 兩者都跑,比較結果。如果差異不大,報告 Pearson;如果差異很大,代表線性假設或常態假設有問題,報告 Spearman 並說明原因。
相關不等於因果
這是統計學中最重要也最常被忽略的原則:Correlation does not imply causation(相關不代表因果)。
即使你發現冰淇淋銷量和溺水事件數有很高的正相關(r = 0.85),也不代表吃冰淇淋會導致溺水。真正的原因是第三個變數——氣溫(天氣熱時冰淇淋賣得好,同時也更多人去游泳)。這種現象叫做混淆變數(Confounding Variable)。
為什麼相關不等於因果?
- 第三變數問題:X 和 Y 的相關可能完全是因為它們都受到 Z 的影響。例如:鞋子尺寸和閱讀能力正相關——因為年齡(Z)同時影響兩者。
- 方向不明:X 和 Y 相關,可能是 X 影響 Y,也可能是 Y 影響 X。例如:運動量和心理健康正相關,但到底是運動改善心情,還是心情好的人更願意運動?
- 純屬巧合:在大量變數中搜尋相關,有些必然會「碰巧」顯著。著名的搞笑相關案例:美國尼可拉斯乘客出演電影數量和游泳池溺水人數的年度趨勢高度相關。
如何控制混淆變數?
如果你懷疑有混淆變數 Z,可以使用偏相關(Partial Correlation):在統計上「控制」Z 的影響後,再看 X 和 Y 是否仍然相關。如果控制 Z 後相關消失,那原本的相關很可能是 Z 造成的假象。
要建立因果關係,最可靠的方法是隨機對照實驗(RCT)。觀察性研究中看到的相關永遠只能是「關聯」,要格外小心不要過度詮釋。
報告寫法範例
「BMI 與收縮壓之間存在中度正相關,r(148) = .42, p < .001。然而,此為橫斷面觀察資料,無法推論因果方向。控制年齡與性別後,偏相關係數為 r = .35, p < .001,顯示關聯仍然存在。」
這種寫法明確交代了:相關的方向和強度、統計顯著性、研究設計的限制、以及控制混淆變數後的結果。
此工具永久免費。若它幫你節省了時間,考慮請作者喝杯咖啡。
☕ 請我喝杯咖啡