Diversification rate shift-LTT plot, MEDUSA, and BAMM－airbugs

大尺度演化學的研究中一個很有趣的問題類型就是：
（一）為什麼某些時期系群的分化速度會變快？又有些時候會變慢？
（二）為什麼某些系群分化的速度會比其他系群快？

為了回答這些問題，首先需要確認的就是：（一）不同時期的分化速度真的有顯著的改變嗎？（二）分化速度在不同系群真的有顯著的不一樣嗎？
雖然很多時候重建好一棵親緣關係樹之後很常發現其中不同的系群（lineages）常常有不一樣的物種數。或是生物的分歧（lineage splits）似乎都集中在某些特定的時候。但是這些都只是基於看圖說故事，這些故事真的有其支持度嗎？

就拿我研究的分類群Dynastes屬甲蟲的物種關係樹來做例子：
很明顯得Dynastes亞屬比Theogenes亞屬多了很多種生物（假設所有的物種這棵親緣樹都有），並且大部份的分化都是在紅色那一條線的時間點之後才發生的！那在這個分類群中是不是有shifts in diversification rates呢？
BGTree

一個最早被拿來用的分析方法是用R的package laser做lineage through time plot（LTT plot）。
以下我先很單純的根據pure birth/Yule及birth death models來看一樣16個物種如果沒有rate shift的話，在一樣的分化時間內會有怎樣的lineage through time plots。
ltt_PB_&_BD
黑色的線條是真正第一個圖Dynastes species tree的LTT plot，不一樣的顏色部分代表根據一個model（左：pure birth，右：birth death）預期的LTT plot會長什麼樣。
這裡的結果大概就是說如果是pure birth model，現在的Dynastes tree的diversification pattern沒有辦法被單一一個diversification rate fit很好。Birth death model似乎有fit比較好一點，但是還是在時間點-2以內沒辦法fit很好。

然後呢？既然單一一個rate不能fit真的data很好，那我們就試試看fit這個Dynastes LTT plot多個rates，看看會不會比較好（以下例子都是用Yule model）！
LTT_many_rates
很簡單的就比較不同models的AIC values，我們發現fit三個不一樣的rates（兩個rate shifts）有最佳（最小）的AIC，那大概就是最好的model！

LTT是個很簡單的model，基本上就是看時間對bifurcation event發生的線性回歸。到底是單一一條直線回歸就可以描述data，或是需要在不同的時間內用不一樣的斜率？但是回來看例子的Dynastes tree，Theogenes只有兩個物種，哪裡有足夠的data可以讓model算rate呢？那Theogene與Dynastes亞屬之間的分化速度到底要怎麼比呢？

Modeling Evolutionary Diversification Using Stepwise AIC (MEDUSA)就是一個這樣的model來偵測一個phylogeny上面有沒有很顯著的diversification rate shift。
MEDUSA的原則就是先給整個Dynastes tree fit單一一個diversification rate然後計算這個單一rate model的AIC value。之後隨機的挑選某個node（或是stem），讓那個node之前及之後fit不一樣的diversification rates，然後再計算AIC value。如果fit多個rate的model的AIC明顯的比fit比較少rate的model的AIC好（用AICc threshold），那就留顯著較好的model，然後再繼續嘗試在不同的nodes前後fit不一樣的rates。這樣的步驟一直重複直到較複雜的model的AIC value不再明顯的比簡單的model來的好就停止。

MEDUSA的分析現在可以使用R的package geiger就好，但是我習慣用turboMEDUSA。Joseph的GitHub site有詳細的介紹如何操作，所以以下我就直接分享MEDUSA分析Dynastes tree的結果（假設有完整的sample沒有missing data）：
Medu1
Theogenes lineage可能發生過rate shift，而且是rate decrease！

turboMEDUSA的好處就是不只可以比較一棵親緣樹。如果你有很多彼此之間沒有統計上顯著差異的樹（例如Bayesian analysis的post-burnin之後的樹），全部都可以拿來一起分析。如此就可以了解如果加入phylogenetic reconstruction的uncertainty，Dynastes甲蟲的分化過程到底有沒有發生過diversification rate shift。
另外一個用MEDUSA分析的好處就是可以加入missing data的計算。舉例來說，在我的Dynastes屬甲蟲的研究中，我並沒有採集到D. hercules tuxtlas，D. hercules takakuwai，及D. neptunus rouchei的樣本。如果這三個族群是不一樣的independently evolving lineages，那現在這個Dynastes的species tree就其實有三個missing data。MEDUSA的分析可以加入一個richness的data，用來表示某些類群可能有多於一個種。比如說我雖然不知道D. hercules tuxtlas是不是一個獨立的種，但是我知道他的關係與D. hercules septentrionalis很相近是姐妹種，那我就可以在richness的file裡面把Dhs的richness設為2來表示那個地方應該其實有兩個種。MEDUSA分析的時候就會在Dhs那個lineage上隨機加上一個split來表示那裡有多一個分化事件。Richness file的例子如下：

下面這個圖就是分析8000棵post-burnin species tree的結果：
medusa
node上的數字代表多少百分比的post-burnin trees支持那個node發生rate shift。左邊的圖是假設complete taxon sampling，右邊的圖是加入假設有三個missing data的訊息。
大部份的tree是支持在Theogenes發生分化速度減緩，不過也有很多是支持在Dynastes發生分化速度加快。但不管如何這裡得到很明顯的訊息就是Dynastes亞屬比Theogenes的分化速率快（至於是減速還是加速就各有支持度）。

看到了這裡，其實很多研究需要的分析統計支持都可以得到了，那還有什麼可以改進的地方嗎？當然有的！親緣關係分析方法中最常見的likelihood vs. Bayesian在這個時候就出現了。
Bayesian Analysis of Macroevolutionary Mixtures（BAMM）就是一個使用reverse jump的方法讓MCMC search可以在不同rate shifts的models之間來回估計不同models的可能性。Dan的網頁上有簡短的解釋這樣的分析與根據delta AIC value差異選擇model的差異性：簡短的來說，很多不一樣的model算出來的likelihood（或換算的AIC）可能非常的接近，只選擇其中一個來表示整個dataset不一定有考慮到所有的可能性。BAMM可以把所有equally likely的models整合起來一起看，比較客觀不失公平。

Dan的網頁有很詳細的介紹怎麼跑分析，需要的東西就只有去下載的主程式bamm，要被分析的親緣關係樹（nwk format），還有一個control file。control file可以在網頁上下載，下載之後只需要自己決定MCMC要跑多久及MCMC的sample frequency。我初步對於Dynastes species tree的BAMM分析的設定如下：
bamm_setting
跑完之後用R的BAMMTool package檢視結果，MCMC幾乎馬上就plateau了：
MCMC
把前20%的samples去掉burnin，基本上估計的參數都有很好的effective sample size：
ESS
大部份的MCMC samples要不是支持一個shift的model（45%）就是支持沒有shift的model（30%）。

然後看一下所有post burnin MCMC samples平均估計出來每個lineage的分化速率：
BAMM_mean_rate
是不是跟MEDUSA的結果很像呢？Dynastes亞屬比Theogenes快。但這裡還指出另外一個有趣的點：長戟大兜這個clade似乎分化速度又比白兜clade要來得快。

最後看一下Macroevolutionary cohort analysis：
Macro_cohort
這分析主要是看兩倆物種之間的分化速率比較。如果兩個物種之間有較高機率出現一樣的分化速度，他們就會顯示比較紅色的顏色。在Dynastes這一棵species tree上很明顯的同一個lineage裡面的物種估計出來的分化速度也比較相近。

如果lineage specific diversification rate或是diversification rate shift會是你很有興趣的pattern，MEDUSA跟BAMM基本上都是非常合適好用的分析方法。需要煩惱的就只剩下likelihood vs. Bayesian的事，那就是統計學與哲學上的問題了。
我可以講的就是MEDUSA就是純粹看diversification rate，很清楚，而且非常容易可以accommodate missing data（如果你知道有missing data）。壞處就是一般likelihood analyses都會有的壞處：慢，會stock在某個local maximum。BAMM非常的快（因為是C），可以連Trait data一起分析（例如其實有的時候你覺得某個key innovation導致分化速度變快，但是實際上可能只是因為其中某個lineage intrinsic的分化速度變快也可以被當假說檢測）。缺點就是：要跑多少MCMC及priors要怎麼設定（所有Bayesian分析都有的問題）？