纽约(基因组网)-佐治亚理工学院的一个研究小组使用实验衍生的系统发育,对几种重建祖先序列的算法进行了基准测试。
这种祖先序列重建(ASRs)可以帮助研究人员窥探过去的蛋白质功能或为蛋白质工程提供起点。但由于祖先序列已随时间流逝而消失,判断算法的表现在很大程度上依赖于计算机模拟。
为了提供另一种验证这些方法的方法,佐治亚理工学院的Eric Gaucher和他的实验室将一个红色荧光蛋白基因暴露在几轮随机突变中,以开发一个具有19个可操作分类单元的系统发育,作为“现代”序列。然后,他们使用五种ASR方法从现代序列中推断出“古老的”已知序列。作为团队报道自然通讯今天在美国,这些方法都做得相当不错。
Gaucher指出,这一策略借鉴了德克萨斯大学的David Hillis和Jim Bull在20世纪90年代初的工作,他们从单一病毒开发了一个系统发育来测试系统发育算法。
“我想看看我是否能产生一个实验性的系统发育,可以验证用来推断古代序列的算法,”戈歇告诉基因组网。
他和他的同事对单个红色荧光蛋白基因进行随机突变PCR,在每一轮之后,选择一个后代进行下一轮突变。然而,如果研究人员在系统发育中创造了一个分支,那么两个后代就会向前发展。在此基础上,他们开发了一个有17个分支和19个“现代”后代的系统发育树。
随着荧光蛋白基因序列的改变,蛋白质的颜色也发生了变化。原始基因编码红色蛋白质,其后代包括红色、绿色和蓝色蛋白质等。Gaucher指出,他们故意选择了一个显示一系列表型的基因家族,因此各种特征可以在他们的系统发育过程中进化。
然后,研究人员对这19个“现代”序列进行ASR分析——使用PAML, FastML和PhyloBayes,有或没有速率变化作为伽玛分布,以及简约——看看他们是否可以推断出祖先序列。Gaucher和他的同事报告说,所有的方法都在很大程度上再现了现实,尽管它们在推断更多派生节点方面比推断更多基础节点更好。
他们报告说,总准确率在97.88%到98.17%之间。Gaucher指出,他们已经从计算机模拟中知道,算法可能表现得相当好,但他们现在已经证实了这一点。“它提供了更多的信心,”他说。
然而,算法有时会在表型水平上给出不同的答案,即使大多数潜在的序列是正确的,Gaucher说。他和他的团队根据推断的祖先序列合成、表达和纯化蛋白质,以测量推断的表型。由此,他们报告说,这些方法并不总是正确地处理同形或趋同进化。
Gaucher说,他的团队的发现为ASR方法提供了更大的信心,但结果也指出了算法可以磨练的领域。“我们认为我们能够改进我们的算法,”他说,“希望它能把反对者变成信徒,让他们相信这是一种准确而合法的方法。”