纽约——两种新的算法已经释放了利用纳米孔技术对人类和其他大型基因组进行定向测序的潜力,而无需对感兴趣的目标进行富集。vwin德赢ac米兰合作它们立即适用于癌症基因和宏基因组测序研究,预示着一种新的纳米孔测序方法,其中感兴趣的DNA可以在飞行中改变。
在不同的研究中BioRxiv上周,来自约翰霍普金斯大学和英国诺丁汉大学的研究小组描述了他们如何利用“Read Until”功能由诺丁汉集团于2016年首次发布的牛津vwin德赢ac米兰合作纳米孔技术,基本上是执行靶向测序面板。
“这是一种计算过滤方法,与必须捕获的东西非常不同,”英属哥伦比亚大学的研究人员约翰·泰森解释说,他熟悉纳米孔测序,但没有参与这些研究。
由Michael Schatz领导的约翰霍普金斯大学团队在MinIon流细胞上以30倍的覆盖率对148个人类基因进行了测序。在实现他们的算法之前未交(纳米孔电流对准大范围DNA的应用),它读取原始信号,以确定孔是否应该吐出DNA分子,同样的流池只能产生5倍的覆盖率,他说。Schatz说:“即使有50X的覆盖率,Illumina测序也只能得到纳米孔测序中发现的结构变异的一半。”纳米孔测序还包括DNA甲基化信息。该团队还使用Read Until来耗尽细菌样本中属于特定基因组的reads。
由Matthew Loose领导的诺丁汉研究小组能够对10000个人类基因进行更大的测序。他们的算法使用GridIon Mk1仪器的板上GPU来执行基本调用来选择读取,尽管他们建议商用GPU也可以工作。他们能够在MinIon流电池上完成整个面板。
牛津纳米孔公司在2015年披露了两种算法使用的Read Until功能,但运行该功能所需的代码只能通过请求获得。标准的过程是通过在细胞膜上施加电压将DNA通过一个孔。这种电压可以选择性地逆转到单个气孔上,导致气孔中的任何物质被喷射出来。它发生得很快,而且由于统计数据和解旋酶已经解除的事实,消耗的读取不太可能被收回。
沙茨实验室的研究生Sam Kovaka是这项UNCALLED研究的第一作者,他说:“在几周前,没有关于Read Until对除病毒DNA外的任何东西有效的报道。”
在他2016年的论文中自然方法, Loose展示了噬菌体lambda的靶向扩增子的能力。他最初使用的是原始电信号,但转移到基础呼叫允许他结合大量其他工具来实时分析数据。他说,原始信号“计算量要大得多”,参考基因组必须转换成类似信号的数据,才能与实验数据进行比较。
Loose赞扬了Schatz团队在《UNCALLED》中的表现。他说:“这是一个非常巧妙的优化。”Schatz指出,该算法执行了一种改进的基本调用形式,牛津纳米孔平台上更健壮的技术和改进的软件帮助两个团队达到了今天的水平。vwin德赢ac米兰合作
无论哪种方式,算法都足够高效,可以在纳米孔平台上进行靶向测序。两个团队都显示了所需目标的富集,而Schatz的团队显示了不需要的DNA的消耗,但两种算法都应该能够拒绝不需要的序列样本。“他们是同一枚硬币的两面,”松说。“一旦你有了一种可以弹出读取的算法,你就可以自己决定如何利用这种能力来丰富或减少数据。”
虽然流细胞的大部分容量用于读取最终将被弹出的DNA,但这种方法帮助研究人员找到他们正在寻找的东西。与非靶向纳米孔测序相比,这可以节省资金。研究人员Schatz和Loose都表示,这种方法使测序面板的成本更接近于Illumina定向测序的成本。
“如果你承诺做300个流式电池,成本就会降至每个475美元。只需大约500美元,你就可以得到非常全面的[肿瘤]分析,”Schatz说。
传统的目标捕获方法在设计探针和运行分析方面的前期成本很高,Loose说,“而使用这种方法,你可以一直采样,并挑选出你想要的东西。这是一种计算过滤方法,与必须制造或捕获东西非常不同。”
“即使是单就流式电池成本而言,它也节省了资金,”松说。一个“非常好的”,意思是比平均水平更好,流式细胞可以以30倍的覆盖率对团队的面板进行排序,允许它在15小时内识别结构变体。他指出,一个使用自适应测序的平均流式细胞可以在20小时内对癌细胞株的面板进行15到20倍的覆盖。但如果没有靶向测序,30X的覆盖率将需要4到8个流式细胞。
这两项研究都使用了细胞系的DNA,但研究团队渴望迈出下一步,将他们的方法应用于患者样本。在与冷泉港实验室(Cold Spring Harbor Laboratory)和诺斯韦尔健康中心(Northwell Health)的一项相关合作中,沙茨的团队正在发现乳腺癌患者的结构变异,他说这些变异只能通过长读检测到,包括主要癌症风险基因的突变,如BRCA1和CHEK2。他说:“据我们所知,这些突变在健康人群中非常罕见,但我们渴望使用UNCALLED在其他患者中对它们进行分析,这样我们就可以设计一个新的长阅读癌症小组来评估我们发现的新关联。”在其他项目中,他的团队正在分析人类主要组织相容性复合体区域和其他孟德尔疾病风险基因的变异。他还计划将这种方法用于植物基因组的研究,比如番茄.
Schatz表示,他将UNCALLED开源,并没有申请专利的计划。此外,在周一,Oxford Nanopore宣布将向研究人员提供Read Until API,并致力于所谓的“自适应采样”API,计划在5月的伦敦用户会议之前发布。
泰森指出,新创基因组组装是这些方法的另一个潜在的重要应用。他说:“我们正在做更大基因组的组装,所以我们有兴趣瞄准那些有较长读数的空白区域。”他在英属哥伦比亚大学(University of British Columbia)的实验室正在寻找一种跨越contigs断点的目标读取方法。
泰森预测,最终,基于流细胞已经处理的内容,这种定向测序将在飞行中完成。“你将在文件中拥有一个坐标列表,并在特定时间动态选择你所追求的内容。”
周日,由EMBL-EBI的尼克·戈德曼领导的研究人员,包括Loose在内,发布了一份预印一种算法,可以使用自适应排序策略在飞行。
“这是一种看待测序的新方法,我认为这将是一个真正的转变,”松说。他说,尽管生物信息学家可用的其他工具还没有设计用于处理流数据,但响应性测序“有潜力比目标富集和消耗大得多”。
“随着时间的推移,动态地改变你排序的东西将是令人着迷的探索。这将会是一个非常有趣的游戏。”