纽约(GenomeWeb)——用于长读取测序数据的新的基于图的组装算法有望在更短的时间内交付基因组,降低数据分析的成本。
加州大学圣地亚哥分校(University of California, San Diego)计算机科学教授帕维尔·佩夫兹纳(Pavel Pevzner)开发了一种名为Flye的新型基因组组装程序,他说,它们的发展反映了十年前短读组装程序的类似改进。
Flye和wtdgb2都是使用基于De Bruijn图的方法的基因组组装算法,就像Pevzner为Spades开发的算法一样,Spades是一种2012年发布的短读组装算法。
“对我来说,这几乎就像déjà似曾相识,”佩夫兹纳告诉基因组网。“我们为短读引入的计算方法同样适用于长读。你从阅读开始,你可以创建一个道路和桥梁网络,回答这个问题,“你如何以一种阐明基因组的方式走这个网络?”’”
实验室已经将Flye和wtdbg2与Canu汇编器(另一个查找重叠contig的长读汇编器)进行了比较,结果证实基于图的算法更快。
英国伯明翰大学的微生物遗传学家和生物信息学专家尼克·洛曼(Nick Loman)在用太平洋生物科学公司(Pacific Biosciences)和牛津纳米孔(Oxford Nanopore)的长读技术测序的宏基因组样本上运行了Flye和wtdbg2。vwin德赢ac米兰合作“Wtdbg2和miniasm(一种用于长读取的基于图形的旧汇编程序)可能是最快的,”他说。“弗莱在中间,而我们手中的卡努通常是最慢的。”
据达纳法伯癌症中心的生物信息学家、一项研究的合著者李恒(Heng Li)说,虽然对宏基因组样本的分析速度很快,但wtdbg2是为组装人类基因组而开发的BioRxiv预印该文介绍了该算法。中国农业科学院深圳农业基因组研究所的阮珏领导了该算法的开发。“它可以在几天内组装一个人类基因组,我们可以花上几美元,也许10美元,”李说。
佩夫兹纳对Flye的速度有更具体的说法,这意味着成本降低。他说:“它的速度比Canu快一个数量级,运行时间要低得多,在所有基因组中都是如此。”由此,计算成本“降低了1 / 10,”他说。
“有了Canu,我们达到了计算成本超过生成数据成本的地步,”他说。“有了Flye,我们的计算成本再一次低于生成数据的成本。”
Pevzner的团队发表了一篇论文,描述了该算法和他们的基准测试研究自然生物技术vwin德赢ac米兰合作上个月。
“这是一项不错的工作,”美国国立卫生研究院(National Institutes of Health)的生物信息学家、Canu的主要开发者亚当·菲利普(Adam Phillippy)在一封电子邮件中说。“Flye是一个非常能干的个体和宏基因组的组装者。”
PacBio公司首席战略官乔纳斯·科拉赫(Jonas Korlach)表示,他们已经在内部研究了wtdbg2和Flye。他证实了两者都是快速的,但指出速度只是判断汇编程序的几个指标之一。
几位研究人员告诉GenomeWeb, De Bruijn图组装器显示出一些缺点,包括wtdbg2的误组装率较高,Flye的内存需求非常大,特别是对于较大的基因组。
Korlach补充说,他公司的内部数据并没有表明,研究人员因为缺乏计算资源预算而放弃了长读组装项目。
虽然短读测序已经产生了高度准确的读数,但将这些读数组装到基因组中,尤其是那些解释结构变异的读数,一直是一个尚未解决的挑战。PacBio和Oxford Nanopore的长读取数据提供了跨越长重复部分的数据,但更容易出错。
Pevzner说,长读数据中的错误使组装变得具有挑战性,并增加了计算成本。他说,“很难看到”不同解读之间的“相似之处”,因此也更难将这些解读拼凑在一起。
Pevzner说,长读组装算法一旦遇到重复延伸或多种组装基因组的方式,历史上就会停止。“如果他们没有进一步的信息,他们就会停止,”佩夫兹纳说。“在我们的情况下,我们不会停止。我们只是继续以任何疯狂的方式扩展基因组。”
正如Pevzner和他的合著者在他们的论文中所写的那样,Flye在考虑下一步要做什么时,会切换到“任何其他重叠的阅读,而不是精心选择的重叠阅读”,从而避免了“耗时的测试”来检查阅读选择是否正确。
Wtdbg2通过使用一种称为“模糊德布鲁因图”的概念来处理组装,Li说。“如果你使用典型的德布鲁因图,你就不允许两个序列之间不匹配。但是模糊图数学允许一些不匹配并将序列合并在一起,这使得算法可以构建图。”
Pevzner的团队承认,“Flye构建的不准确的contigs会导致精确的组装图,这似乎违反直觉。”但佩夫兹纳说,他们的基准研究结果表明,这种方法是有效的。“我们做更少的错误和更多的连续装配,”他说。
在自然生物技术vwin德赢ac米兰合作在论文中,Pevzner的小组报告说,当从PacBio的数据组装酵母基因组时,Flye的NG50为670 kb和5个错误组装,而Canu的NG50分别为708 kb和13个,PacBio的专有组装商Falcon的NG50为562 kb和27个。Pevzner说Flye也比Canu快40%。对于人类基因组,Flye的NG50为7,886 kb,而Canu为3,209 kb,算法记录了879个误组装,而Canu为1,200个。
Loman说,与Canu相比,基于图形的汇编程序可以完成Canu甚至无法完成的工作。“当我们在这些数据集上尝试Canu时,我们无法在任何合理的时间框架内完成。在他们被杀之前,他们要工作一周,甚至几个月,”他说。“Flye我们能够在一台48或96核的服务器上运行,并在一天或几天内得到结果。”
Pevzner说,就人类基因组而言,wtdbg2“可能比Flye快4到5倍”。
但是洛曼比较了细菌基因组的组装器,他说Flye的结果在错误组装方面“似乎更好一点”。他补充说,Flye不需要用户指定大量参数。“预期的基因组大小是用户可配置的主要参数,”他说。
Li说,Flye使用的内存是wtdbg2的两到三倍。“对于一个比人类基因组大5倍的植物基因组来说,wtdbg2可能是唯一可以在这些大型数据集上独立运行的汇编程序,”他说,这表明Flye需要太多的内存来完成任务。
PacBio的Korlach预测,在未来几年内,“一两个赢家”将成为长读基因组组装的首选软件。
他说:“在长读汇编程序的发展过程中,我们所处的位置是不同工具和方法的爆炸,而[De Bruijn图汇编程序]当然是这棵树上的一个分支。”