好久沒更新了,來寫一個大家好像不太在意的小地方Spurious Corrlation:
有時候在做生態學研究的時候,因為每個生物個體會有很多本身的差異,所以在做分組比較的時候很多測量值會要標準化。比如鍬形蟲的大顎長度會與體長有關,越大隻的雄蟲越長。鍬形蟲的翅膀長度也會與體長有關,越大隻翅鞘就越長。那如果研究大顎長度與翅鞘長度是不是有相關,能不能把兩個測量值(大顎長度及翅鞘長度)對體長做標準化(變成ratio)在來看兩個比例的關係呢?
要做當然是可以,但是還沒分析就可以知道這兩個標準化後的ratio一定會變成有直線相關性,因為我們把兩個不相關的測量值用了一樣的denominator:Spurious correlation就出現了!
簡單的舉個例子,假設有一個生物身高是如下隨機分佈:
sim_height <- rnorm(100, mean = 170, sd = 10)
此生物的手長也是隨機分佈如下:
sim_armL <- rnorm(100, mean = 60, sd = 5)
這兩個測量值是不會有直線相關性的!如下:
> fit1<-lm(sim_armL~sim_height)
> summary(fit1)
P value約0.6
如果假設這個生物的體重也是隨機分佈如下:
sim_weight <- rnorm(100, mean = 90, sd = 3)
這時候我們這個生物共有三個隨機分佈的測量值(如下):
接著我們把體長跟手長先對於體重做標準化(純粹亂做):
> new_height <- sim_height/sim_weight
> new_armL <- sim_armL/sim_weight
然後你就會發現標準化後的ratio們彼此就有顯著相關了!:
> fit3 <- lm(new_armL~new_height)
> summary(fit3)
P < 0.05!是不是很妙!
所以大家做研究標準化很重要是沒錯,但是要謹慎選用方法,不然就會找到假的相關性,做出錯誤的詮釋。研究有時候會聽到建議說結果沒有顯著也許是因為沒有好好標準化...但是大家也要小心只有標準化後才看到的顯著結果!
寫這一篇文章說的內容其實在生物學研究相關的統計方法已經被討論很久了(但是有興趣或是會特別注意的人好像不多),有興趣可以看按下面這一篇文章:
https://www.jstor.org/stable/2983064