close
大尺度演化學的研究中一個很有趣的問題類型就是:
(一)為什麼某些時期系群的分化速度會變快?又有些時候會變慢?
(二)為什麼某些系群分化的速度會比其他系群快?
為了回答這些問題,首先需要確認的就是:(一)不同時期的分化速度真的有顯著的改變嗎?(二)分化速度在不同系群真的有顯著的不一樣嗎?
雖然很多時候重建好一棵親緣關係樹之後很常發現其中不同的系群(lineages)常常有不一樣的物種數。或是生物的分歧(lineage splits)似乎都集中在某些特定的時候。但是這些都只是基於看圖說故事,這些故事真的有其支持度嗎?
就拿我研究的分類群Dynastes屬甲蟲的物種關係樹來做例子:
很明顯得Dynastes亞屬比Theogenes亞屬多了很多種生物(假設所有的物種這棵親緣樹都有),並且大部份的分化都是在紅色那一條線的時間點之後才發生的!那在這個分類群中是不是有shifts in diversification rates呢?
一個最早被拿來用的分析方法是用R的package laser做lineage through time plot(LTT plot)。
以下我先很單純的根據pure birth/Yule及birth death models來看一樣16個物種如果沒有rate shift的話,在一樣的分化時間內會有怎樣的lineage through time plots。
黑色的線條是真正第一個圖Dynastes species tree的LTT plot,不一樣的顏色部分代表根據一個model(左:pure birth,右:birth death)預期的LTT plot會長什麼樣。
這裡的結果大概就是說如果是pure birth model,現在的Dynastes tree的diversification pattern沒有辦法被單一一個diversification rate fit很好。Birth death model似乎有fit比較好一點,但是還是在時間點-2以內沒辦法fit很好。
然後呢?既然單一一個rate不能fit真的data很好,那我們就試試看fit這個Dynastes LTT plot多個rates,看看會不會比較好(以下例子都是用Yule model)!
很簡單的就比較不同models的AIC values,我們發現fit三個不一樣的rates(兩個rate shifts)有最佳(最小)的AIC,那大概就是最好的model!
LTT是個很簡單的model,基本上就是看時間對bifurcation event發生的線性回歸。到底是單一一條直線回歸就可以描述data,或是需要在不同的時間內用不一樣的斜率?但是回來看例子的Dynastes tree,Theogenes只有兩個物種,哪裡有足夠的data可以讓model算rate呢?那Theogene與Dynastes亞屬之間的分化速度到底要怎麼比呢?
Modeling Evolutionary Diversification Using Stepwise AIC (MEDUSA)就是一個這樣的model來偵測一個phylogeny上面有沒有很顯著的diversification rate shift。
MEDUSA的原則就是先給整個Dynastes tree fit單一一個diversification rate然後計算這個單一rate model的AIC value。之後隨機的挑選某個node(或是stem),讓那個node之前及之後fit不一樣的diversification rates,然後再計算AIC value。如果fit多個rate的model的AIC明顯的比fit比較少rate的model的AIC好(用AICc threshold),那就留顯著較好的model,然後再繼續嘗試在不同的nodes前後fit不一樣的rates。這樣的步驟一直重複直到較複雜的model的AIC value不再明顯的比簡單的model來的好就停止。
MEDUSA的分析現在可以使用R的package geiger就好,但是我習慣用turboMEDUSA。Joseph的GitHub site有詳細的介紹如何操作,所以以下我就直接分享MEDUSA分析Dynastes tree的結果(假設有完整的sample沒有missing data):
Theogenes lineage可能發生過rate shift,而且是rate decrease!
turboMEDUSA的好處就是不只可以比較一棵親緣樹。如果你有很多彼此之間沒有統計上顯著差異的樹(例如Bayesian analysis的post-burnin之後的樹),全部都可以拿來一起分析。如此就可以了解如果加入phylogenetic reconstruction的uncertainty,Dynastes甲蟲的分化過程到底有沒有發生過diversification rate shift。
另外一個用MEDUSA分析的好處就是可以加入missing data的計算。舉例來說,在我的Dynastes屬甲蟲的研究中,我並沒有採集到D. hercules tuxtlas,D. hercules takakuwai,及D. neptunus rouchei的樣本。如果這三個族群是不一樣的independently evolving lineages,那現在這個Dynastes的species tree就其實有三個missing data。MEDUSA的分析可以加入一個richness的data,用來表示某些類群可能有多於一個種。比如說我雖然不知道D. hercules tuxtlas是不是一個獨立的種,但是我知道他的關係與D. hercules septentrionalis很相近是姐妹種,那我就可以在richness的file裡面把Dhs的richness設為2來表示那個地方應該其實有兩個種。MEDUSA分析的時候就會在Dhs那個lineage上隨機加上一個split來表示那裡有多一個分化事件。Richness file的例子如下:
下面這個圖就是分析8000棵post-burnin species tree的結果:
node上的數字代表多少百分比的post-burnin trees支持那個node發生rate shift。左邊的圖是假設complete taxon sampling,右邊的圖是加入假設有三個missing data的訊息。
大部份的tree是支持在Theogenes發生分化速度減緩,不過也有很多是支持在Dynastes發生分化速度加快。但不管如何這裡得到很明顯的訊息就是Dynastes亞屬比Theogenes的分化速率快(至於是減速還是加速就各有支持度)。
看到了這裡,其實很多研究需要的分析統計支持都可以得到了,那還有什麼可以改進的地方嗎?當然有的!親緣關係分析方法中最常見的likelihood vs. Bayesian在這個時候就出現了。
Bayesian Analysis of Macroevolutionary Mixtures(BAMM)就是一個使用reverse jump的方法讓MCMC search可以在不同rate shifts的models之間來回估計不同models的可能性。Dan的網頁上有簡短的解釋這樣的分析與根據delta AIC value差異選擇model的差異性:簡短的來說,很多不一樣的model算出來的likelihood(或換算的AIC)可能非常的接近,只選擇其中一個來表示整個dataset不一定有考慮到所有的可能性。BAMM可以把所有equally likely的models整合起來一起看,比較客觀不失公平。
Dan的網頁有很詳細的介紹怎麼跑分析,需要的東西就只有去下載的主程式bamm,要被分析的親緣關係樹(nwk format),還有一個control file。control file可以在網頁上下載,下載之後只需要自己決定MCMC要跑多久及MCMC的sample frequency。我初步對於Dynastes species tree的BAMM分析的設定如下:
跑完之後用R的BAMMTool package檢視結果,MCMC幾乎馬上就plateau了:
把前20%的samples去掉burnin,基本上估計的參數都有很好的effective sample size:
大部份的MCMC samples要不是支持一個shift的model(45%)就是支持沒有shift的model(30%)。
然後看一下所有post burnin MCMC samples平均估計出來每個lineage的分化速率:
是不是跟MEDUSA的結果很像呢?Dynastes亞屬比Theogenes快。但這裡還指出另外一個有趣的點:長戟大兜這個clade似乎分化速度又比白兜clade要來得快。
最後看一下Macroevolutionary cohort analysis:
這分析主要是看兩倆物種之間的分化速率比較。如果兩個物種之間有較高機率出現一樣的分化速度,他們就會顯示比較紅色的顏色。在Dynastes這一棵species tree上很明顯的同一個lineage裡面的物種估計出來的分化速度也比較相近。
如果lineage specific diversification rate或是diversification rate shift會是你很有興趣的pattern,MEDUSA跟BAMM基本上都是非常合適好用的分析方法。需要煩惱的就只剩下likelihood vs. Bayesian的事,那就是統計學與哲學上的問題了。
我可以講的就是MEDUSA就是純粹看diversification rate,很清楚,而且非常容易可以accommodate missing data(如果你知道有missing data)。壞處就是一般likelihood analyses都會有的壞處:慢,會stock在某個local maximum。BAMM非常的快(因為是C),可以連Trait data一起分析(例如其實有的時候你覺得某個key innovation導致分化速度變快,但是實際上可能只是因為其中某個lineage intrinsic的分化速度變快也可以被當假說檢測)。缺點就是:要跑多少MCMC及priors要怎麼設定(所有Bayesian分析都有的問題)?
(一)為什麼某些時期系群的分化速度會變快?又有些時候會變慢?
(二)為什麼某些系群分化的速度會比其他系群快?
為了回答這些問題,首先需要確認的就是:(一)不同時期的分化速度真的有顯著的改變嗎?(二)分化速度在不同系群真的有顯著的不一樣嗎?
雖然很多時候重建好一棵親緣關係樹之後很常發現其中不同的系群(lineages)常常有不一樣的物種數。或是生物的分歧(lineage splits)似乎都集中在某些特定的時候。但是這些都只是基於看圖說故事,這些故事真的有其支持度嗎?
就拿我研究的分類群Dynastes屬甲蟲的物種關係樹來做例子:
很明顯得Dynastes亞屬比Theogenes亞屬多了很多種生物(假設所有的物種這棵親緣樹都有),並且大部份的分化都是在紅色那一條線的時間點之後才發生的!那在這個分類群中是不是有shifts in diversification rates呢?
一個最早被拿來用的分析方法是用R的package laser做lineage through time plot(LTT plot)。
以下我先很單純的根據pure birth/Yule及birth death models來看一樣16個物種如果沒有rate shift的話,在一樣的分化時間內會有怎樣的lineage through time plots。
黑色的線條是真正第一個圖Dynastes species tree的LTT plot,不一樣的顏色部分代表根據一個model(左:pure birth,右:birth death)預期的LTT plot會長什麼樣。
這裡的結果大概就是說如果是pure birth model,現在的Dynastes tree的diversification pattern沒有辦法被單一一個diversification rate fit很好。Birth death model似乎有fit比較好一點,但是還是在時間點-2以內沒辦法fit很好。
然後呢?既然單一一個rate不能fit真的data很好,那我們就試試看fit這個Dynastes LTT plot多個rates,看看會不會比較好(以下例子都是用Yule model)!
很簡單的就比較不同models的AIC values,我們發現fit三個不一樣的rates(兩個rate shifts)有最佳(最小)的AIC,那大概就是最好的model!
LTT是個很簡單的model,基本上就是看時間對bifurcation event發生的線性回歸。到底是單一一條直線回歸就可以描述data,或是需要在不同的時間內用不一樣的斜率?但是回來看例子的Dynastes tree,Theogenes只有兩個物種,哪裡有足夠的data可以讓model算rate呢?那Theogene與Dynastes亞屬之間的分化速度到底要怎麼比呢?
Modeling Evolutionary Diversification Using Stepwise AIC (MEDUSA)就是一個這樣的model來偵測一個phylogeny上面有沒有很顯著的diversification rate shift。
MEDUSA的原則就是先給整個Dynastes tree fit單一一個diversification rate然後計算這個單一rate model的AIC value。之後隨機的挑選某個node(或是stem),讓那個node之前及之後fit不一樣的diversification rates,然後再計算AIC value。如果fit多個rate的model的AIC明顯的比fit比較少rate的model的AIC好(用AICc threshold),那就留顯著較好的model,然後再繼續嘗試在不同的nodes前後fit不一樣的rates。這樣的步驟一直重複直到較複雜的model的AIC value不再明顯的比簡單的model來的好就停止。
MEDUSA的分析現在可以使用R的package geiger就好,但是我習慣用turboMEDUSA。Joseph的GitHub site有詳細的介紹如何操作,所以以下我就直接分享MEDUSA分析Dynastes tree的結果(假設有完整的sample沒有missing data):
Theogenes lineage可能發生過rate shift,而且是rate decrease!
turboMEDUSA的好處就是不只可以比較一棵親緣樹。如果你有很多彼此之間沒有統計上顯著差異的樹(例如Bayesian analysis的post-burnin之後的樹),全部都可以拿來一起分析。如此就可以了解如果加入phylogenetic reconstruction的uncertainty,Dynastes甲蟲的分化過程到底有沒有發生過diversification rate shift。
另外一個用MEDUSA分析的好處就是可以加入missing data的計算。舉例來說,在我的Dynastes屬甲蟲的研究中,我並沒有採集到D. hercules tuxtlas,D. hercules takakuwai,及D. neptunus rouchei的樣本。如果這三個族群是不一樣的independently evolving lineages,那現在這個Dynastes的species tree就其實有三個missing data。MEDUSA的分析可以加入一個richness的data,用來表示某些類群可能有多於一個種。比如說我雖然不知道D. hercules tuxtlas是不是一個獨立的種,但是我知道他的關係與D. hercules septentrionalis很相近是姐妹種,那我就可以在richness的file裡面把Dhs的richness設為2來表示那個地方應該其實有兩個種。MEDUSA分析的時候就會在Dhs那個lineage上隨機加上一個split來表示那裡有多一個分化事件。Richness file的例子如下:
下面這個圖就是分析8000棵post-burnin species tree的結果:
node上的數字代表多少百分比的post-burnin trees支持那個node發生rate shift。左邊的圖是假設complete taxon sampling,右邊的圖是加入假設有三個missing data的訊息。
大部份的tree是支持在Theogenes發生分化速度減緩,不過也有很多是支持在Dynastes發生分化速度加快。但不管如何這裡得到很明顯的訊息就是Dynastes亞屬比Theogenes的分化速率快(至於是減速還是加速就各有支持度)。
看到了這裡,其實很多研究需要的分析統計支持都可以得到了,那還有什麼可以改進的地方嗎?當然有的!親緣關係分析方法中最常見的likelihood vs. Bayesian在這個時候就出現了。
Bayesian Analysis of Macroevolutionary Mixtures(BAMM)就是一個使用reverse jump的方法讓MCMC search可以在不同rate shifts的models之間來回估計不同models的可能性。Dan的網頁上有簡短的解釋這樣的分析與根據delta AIC value差異選擇model的差異性:簡短的來說,很多不一樣的model算出來的likelihood(或換算的AIC)可能非常的接近,只選擇其中一個來表示整個dataset不一定有考慮到所有的可能性。BAMM可以把所有equally likely的models整合起來一起看,比較客觀不失公平。
Dan的網頁有很詳細的介紹怎麼跑分析,需要的東西就只有去下載的主程式bamm,要被分析的親緣關係樹(nwk format),還有一個control file。control file可以在網頁上下載,下載之後只需要自己決定MCMC要跑多久及MCMC的sample frequency。我初步對於Dynastes species tree的BAMM分析的設定如下:
跑完之後用R的BAMMTool package檢視結果,MCMC幾乎馬上就plateau了:
把前20%的samples去掉burnin,基本上估計的參數都有很好的effective sample size:
大部份的MCMC samples要不是支持一個shift的model(45%)就是支持沒有shift的model(30%)。
然後看一下所有post burnin MCMC samples平均估計出來每個lineage的分化速率:
是不是跟MEDUSA的結果很像呢?Dynastes亞屬比Theogenes快。但這裡還指出另外一個有趣的點:長戟大兜這個clade似乎分化速度又比白兜clade要來得快。
最後看一下Macroevolutionary cohort analysis:
這分析主要是看兩倆物種之間的分化速率比較。如果兩個物種之間有較高機率出現一樣的分化速度,他們就會顯示比較紅色的顏色。在Dynastes這一棵species tree上很明顯的同一個lineage裡面的物種估計出來的分化速度也比較相近。
如果lineage specific diversification rate或是diversification rate shift會是你很有興趣的pattern,MEDUSA跟BAMM基本上都是非常合適好用的分析方法。需要煩惱的就只剩下likelihood vs. Bayesian的事,那就是統計學與哲學上的問題了。
我可以講的就是MEDUSA就是純粹看diversification rate,很清楚,而且非常容易可以accommodate missing data(如果你知道有missing data)。壞處就是一般likelihood analyses都會有的壞處:慢,會stock在某個local maximum。BAMM非常的快(因為是C),可以連Trait data一起分析(例如其實有的時候你覺得某個key innovation導致分化速度變快,但是實際上可能只是因為其中某個lineage intrinsic的分化速度變快也可以被當假說檢測)。缺點就是:要跑多少MCMC及priors要怎麼設定(所有Bayesian分析都有的問題)?
全站熱搜
留言列表