因為(一)它的output files可以直接用R做出美美的圖,(二)可以用likelihood method來計算不同族群間是不是有顯著的migrants,(三)並且可以計算哪一些SNP(and the loci)與genomic的歷史很不一樣!(可能是under selection)。所以當然就要玩一下!(雖然它是應用在population level與我的species level divergences不一樣,而且”不能有missing data“,但是玩一玩還是很有趣)。
我的電腦是MacBook Pro 使用Mavericks,想要跑Treemix你需要gsl library跟boost。但是在安裝以上兩個libraries之前,你必須要有Xcode跟安裝好command line tool。另一個是安裝HomeBrew!自從有了 brew install 世界變得好easy!!
(brew install gcc大概需要三十分鐘,但是連gfortran都有了,scipy也就可以穩定安裝沒有問題。)
(brew install boost大概只需要兩三秒,gsl的話...只能從download source codes開始。)
(Xcode有安裝好的話,在terminal 輸入 xcode-select --install後按return就OK了『會有畫面叫你按確認跟下一步還有同意』)。
上面這些東西你都有安裝好的話,安裝 Treemix就沒有問題了!!
先介紹一下原始資料,是Dynastes屬甲蟲的RadSeq library,共有52個samples,用pyRAD整理之後得到大於60k個loci,下面是用>60k unlink SNPs 做的 ML tree:
(註:因為是SNPs,沒有invariable site,所以model就簡單選用GTR + Gamma)。
下面圖是Treemix output的maximum likelihood phylogeny (只有3141 shared SNPs (loci)),所以可以知道必須沒有missing data這一項讓原本6萬個loci頓時變成只有3千多個可以用)...
lnL = 767.481
data量很小,所以出來的tree也怪怪的,像ty(美東白兜)應該是ma跟mo的姐妹群,但是卻被放在gr(美西白兜)與hy(墨西哥白兜)的姐妹群。不過只是玩玩,所以沒關係:
接下來就是加入migration events,看看model有沒有顯著的fit更好。圖二是假設有9個migration events,他們會發生在哪些物種之間。
lnL = 804.123
model假設物種間有gene flow/introgression的lnL顯著的比設定沒有gene flow的好!你可以在過程中一直增加migration events(隨便你設定使用 -m flag),然後一直做likelihood ratio tests來看到底可能有多少種間交流發生。
(我的data -m = 8時候lnL = 801.719, -m = 10時lnL = 805.783。)
挺好玩的一個program,雖然大部份都是pop genomic的研究員在使用,像人類各族群的來源及小狗各種品系之間的關係(Treemix paper的Fig. 6),但是如果把不同物種想成其實就是獨立演化中的不同族群,那Treemix沒理由不能用!只是data量太小的時候結果怪怪的...
我的目的是看有沒有由sep + occ祖先進入ma + mo祖先的introgression,因為這兩個系群在中美洲共域,身體顏色趨同演化,因此有假說解釋可能是利用雜交過程,適應性的體色基因可以在不同物種(系群)之間交流,那我的結果似乎可以支持這個論點,introgression的量還蠻大的(橘紅色的箭頭)。
最後補上用比較少物種比較多shared SNPs的結果(共11062個loci)。
lnL 0 migration = 177.222
migration m =3, lnL = 226.328 (m2, lnL = 222.579; m4, lnL = 228.171)。
其中由sep introgression進入inter (ma + mo)就是中美洲共域的三種,introgression的方向也合乎預期。sep + occ進入lic也符合預期,因為在安地斯山脈的西部lichyi的確有可能與occidentalis在相距不遠的地方發現,lic跟occ也有相似的頭角性狀,introgression會發生也不意外。但是由gr進入sep的introgression就一點理由都沒有了....也許這個model真的還是不合適用在分化已經太遠的系群之間。