纽约——根据一项新的研究,一种新的算法方法可以使用笔记本电脑上的内存,快速地将精确的长序列读取集合到整个基因组中。
像太平洋生物科学公司和牛津纳米孔技术公司的长读测序技术可以产生tb级的序列数据。新创这些读取的组装可能是资源密集型的,需要时间和计算内存。
来自麻省理工学院和巴斯德研究所的研究人员开发了一种新的方法,使用最小空间de Bruijn图(mvwin德赢ac米兰合作dBGs)来组装长读基因组。用这种方法,他们在不到10分钟的时间里用8个核和10gb的随机访问存储器组装了一个人类基因组他们报告说在电池系统周二。他们同样可以快速构建大量细菌基因组的索引,然后搜索抗微生物药物耐药性基因的迹象,说明如何能够快速处理测序数据,从而实现个性化医疗。
来自麻省理工学院的通讯作者Bonnie Berger在一封电子邮件中说:“在这项工作之前,单个人类基因组组装需要数天和数百gb的内存,这是实现个性化医疗的一个重大障碍。”“我们的方法mdBG将个人电脑上的计算资源减少到分钟,比现有方法快了两个数量级。”
MdBG依赖于表示核苷酸序列短段而不是单个核苷酸的最小化器。通过这种方式,mdbg只存储核苷酸总数的一小部分,但不会影响基因组序列。
他们应用他们的方法来组装PacBio的长读取果蝇并将mdBG与其他汇编程序(如HiCanu、Hifiasm和Peregrine)的性能进行了比较。
为果蝇该方法是用Rust语言编写的,它在1分9秒内组装了基因组,并使用了1.5 GB的内存。相比之下,Peregrine花了40分11秒,使用了12 GB的内存。
与此同时,对于一个人体装配,rust-mdBG需要10分23秒和10gb的内存,而Peregrine需要14小时8分钟和188 GB的内存。
巴斯德研究所的Rayan Chikhi补充说:“除了基因组组装,我们的mdbg还可以用于在大量细菌基因组中非常有效地搜索抗微生物药物耐药性基因,这是个性化抗生素治疗的关键。”
例如,研究人员使用mdBG为661405个细菌基因组构建了一个索引,这个过程耗时3小时50分钟,需要58 GB。他们进一步查询了泛基因组图是否存在抗微生物耐药性基因,这需要大约12分钟,而不是其他方法的7小时,并且使用不到1 GB的内存。
目前,该方法使用PacBio读取效果最好,作者指出,因为他们有非常低的错误率和他们希望它很快就能处理牛津纳米孔的读数.
Berger和Chikhi补充说,他们计划进一步发展他们的方法,例如在没有缝隙的情况下分解整个染色体。他们说:“从更广泛的角度考虑,我们设想与领域科学家接触,帮助他们开发快速的基因组测试站点,超越可能遗漏基因组之间重要差异的PCR和标记阵列。”