纽约——新发布的算法可以组装新创人类基因组从长时间读取的测序数据在短短几个小时内。
沙斯塔是一种内存计算驱动算法,由陈-扎克伯格倡议(CZI)的研究人员开发,并由加州大学圣克鲁斯分校的研究人员测试新创作者写道,在6小时内组装人类基因组,每个样本的平均成本为70美元。
利用牛津纳米孔技术公司的PromethIon测序仪生成的数据,研究人员能够为11个基因组创建“接近染色体水平”的支架。作者写道,虽然与其他一些长读汇编程序相比,Shasta的汇编程序的相邻性较低(n50的相邻性介于19.3到37.8兆ases之间),但Shasta的汇编错误较少。他们把他们的研究报告发到BioRxiv7月26日。
7月初,两名前太平洋生物科学公司的老兵(现在他们自己工作)描述了Peregrine,这是一种使用索引方案来组装满足一定精度和长度要求的读取的汇编程序。使用先前生成的PacBio长读数数据集,作者报告说,他们能够在100分钟的挂钟时间内组装30倍的基因组。N50评分大于20兆酶。他们还发布了预印本BioRxiv.
这两种算法的开发人员都表示,他们希望它们的汇编程序能够加快基因组研究的步伐,并帮助研究人员发现新的结构变体。
“沙斯塔和其他工具既便宜又快捷,设计的目的是在云端,”加州大学圣克鲁兹分校的计算遗传学家、沙斯塔预印本的作者本尼迪克特·帕滕说。它们真的给了我们扩大纳米孔测序的能力。我们说的是组装数百个新创未来几年的基因组。”
开发人员表示,已有数百名用户从GitHub上下载了这款软件,两种算法都可以在GitHub上找到。至少有一位研究人员已经通过使用Shasta获得了不错的结果。
“对我来说,这是疯狂的速度,”罗宾·布尔说,他是密歇根州立大学的植物基因组学研究员,他使用沙斯塔组装了一个拟南芥只需40多分钟就能完成基因组。她说,如果使用之前最好的装配机Canu,这将需要四天多的时间。此外,安装它并不具有挑战性。她说:“并不是说这是一件小事,而是说它没有任何麻烦。”
Shasta和Peregrine是使用长读测序数据的基因组组装领域的最新参与者。由国家人类基因组研究所的生物信息学家亚当·菲利普开发的Canu是第一个长时间读取的汇编器。它基于Sanger测序的Celera Assembler,于2017年发表。今年早些时候,两组研究人员透露基于De Bruijn图的长读汇编器: Flye和wtdbg2,也被称为红豆。
但总有改进的空间。
2018年,Paten带领研究人员组装了一个新创使用纳米孔的人类基因组数据,发表在自然生物技术vwin德赢ac米兰合作.Canu是唯一的选择,因此该团队被迫使用一个大型计算集群来处理数千小时的计算时间,这需要花费数周时间。
CZI的工程总监布鲁斯·马丁(Bruce Martin)说:“去年我看到这一点时,我想肯定有更好的办法。”开发一种新的汇编程序符合该组织与科学家合作和开发开源工具的目标,使过程更好、更快、更便宜,他说。
马丁找到了CZI的软件工程师保罗·卡内瓦利(Paolo Carnevali),他之前在Complete Genomics工作。他们于2018年中期开始,“将一套新颖的算法方法与商用计算机硬件支持的实际工程相结合,”马丁说。
沙斯塔性能的关键之一是使用大型内存机器,RAM超过1tb。“它完全在记忆中工作,”卡内瓦利说。“如果你这样做,你永远不会去磁盘,你永远不会等待数据,所以一切都更快。”只要可能,该算法还使用多线程,他补充说,在多线程中,工作的分配是动态完成的。“它可以让你保持很高的CPU利用率,”他说。
以类似的方式,Peregrine采用了一种新的计算方法来提高速度。
“基因组组装一直类似于人们玩拼图游戏,”开发人员之一杰森·秦(Jason Chin)说。“以前的方法是看每一件作品,并将其与其他作品进行比较。我们的方法更像是人类解决问题的方式。我们先把颜色或图案匹配起来,然后把它们堆在一起,这样我们就可以通过使用相似的阅读特征来减少搜索空间。”
该算法通过使用最小化器或将相似的读取分组在一起的k-mer索引读取来实现这一点。
到目前为止,Peregrine只在Amazon Web Services云实例上运行。“我们还没有尝试过,但你可能只需要买一台高端电脑,自己就能完成,”Chin的合作开发者阿西夫·卡拉克(Asif Khalak)说。
Chin指出,Peregrine是专门为满足特定规格的读取而设计的:99%的读取精度和10千碱基的长度,或更长。“如果你太矮,你就得不到足够的索引,”他说,而且它无法处理错误超过3%或4%的读数。
还有一种方法可能会起作用,但他们还没有测试过:在装配前打磨读数。“没有理由说它行不通,”卡拉克说。他建议Peregrine本身可以用于装配前的抛光读数。
装配器可以实现多种应用。这两个组装器都不是专门为人类基因组设计的,所以新创没有参考基因组的其他物种的测序是最直接的。尽管已经对其进行了测序,但布埃尔的实验室已经开始研究一种薰衣草(薰衣草花angustifolia)基因组组装。
癌症遗传学中的变异检测是另一个潜在的应用,尤其是较大的变异。马丁建议新创纳米孔测序“将为我们提供观察结构变异所需的显微镜,并有望帮助理解这一过程及其临床意义。”
两名开发人员都意识到,可能会有新的应用程序还没有想到。CZI在MIT开放源码风格的许可下提供了Shasta。“实际上,这意味着任何人都可以获得源代码,做任何他们想做的事情,”马丁说。“他们可以分叉、修改,甚至商业化。”
Khalak说,Peregrine只是刚刚成立的生物数据科学基金会(Foundation for Biological Data Science)的开始,他最近和Chin一起成立了这个基金会。他说:“当速度和成本发生巨大变化时,就会出现新的可能性。”“我们的任务之一是思考这能带来什么。我们正试图探索这个问题。”