本文最初发表于7月13日。
在一项发表的研究中在网上自然上周,Complete Genomics展示了其长片段读取技术,该技术能够对10到20个细胞进行全基因组测序和单倍分型,错误率为千vwin德赢ac米兰合作万分之一。
该公司计划明年将该技术引入其服务业务,并表示它将使临床级基因组(vwin德赢ac米兰合作参见临床测序新闻中的相关报道).
Complete Genomics的首席科学官Rade Drmanac告诉记者按顺序该方法可以应用于任何测序技术。vwin德赢ac米兰合作此外,他还表示,公司正在继续优化该方法,并考虑进行改进,以更好地实现重复区域的排序和调用索引。
该过程增加了大约24小时的前期处理步骤,但完整基因公司的研究总监、该研究的主要作者布罗克·彼得斯(Brock Peters)说:“有一个非常简单的方法可以将时间缩短到12小时,而不需要做任何戏剧性的事情。”
该方法的前提是将10到20个细胞的一小份DNA样本稀释到384孔板中。每个孔含有大约10%到20%的单倍体基因组的DNA,这些DNA已被分割成10万个碱基片段。
将DNA稀释到不同的孔中,可以降低同一孔中任意两个DNA片段是来自父系和母系染色体互补序列的可能性。
接下来,使用单细胞测序中使用的多重置换扩增技术对DNA进行扩增;分散的;然后添加条形码适配器。每口井都有自己独特的条形码。
然后使用Complete的标准35碱基读测序技术对DNA进行汇总和测序。vwin德赢ac米兰合作
Drmanac说,在这种情况下,短读实际上有一个优势,“因为短读是准确的,你可以产生数十亿个,”他说。
测序后,这些片段可以与同一口井的其他片段组合在一起,以重建更大的片段。
Complete使用组合对齐和局部的组装方法新创其读取调用变量的组装,其细节在今年早些时候描述过(是1/24/2012).变量是基于本地程序集调用的,而不是基于读对齐方式。
Drmanac表示,对于长片段读取技术,该公司必须开发vwin德赢ac米兰合作一种新的算法,可以同时使用所有384口井的信息。
本金证明
在这篇论文中,研究人员在三个不同的样本上演示了该技术,创建了10个长片段读取文库——6个来自欧洲HapMap样本,3个来自约鲁班女性HapMap样本,还有一个来自个人基因组计划的样本。
对于约鲁班样本,一个文库使用10个细胞,或约100皮克DNA构建,而约鲁班样本和其他两个样本的所有其他文库使用15至20个细胞,或100至130皮克DNA构建。
每个测序库平均生成超过250gb的映射数据,平均覆盖80倍。
该算法能够将约92%的可相位杂合snp放置在约鲁班样本的n50约为1兆碱基的contigs中,而其他欧洲样本的n50约为500千碱基。作者将欧洲样本中较低的N50大小归因于这些基因组中低杂合度区域的增加。
他们发现,将读取次数增加一倍至约160倍的覆盖率,或结合重复样本,将分期率提高约96%。
比较两个复制文库的单倍型数据发现,结果总体上非常一致,在两个文库分阶段的约220万个杂合snp中,每个文库只有64个差异。
此外,比较来自欧洲HapMap样本的相位和序列数据,以及之前使用其他方法分阶段测定的亲本信息,发现157万个可比位点中有60个实例存在两种方法的差异。
最后,研究小组研究了35个新创在欧洲HapMap样本中的突变。其中34个突变被称为先前测序的基因组或一个长片段读取库。其中32个突变至少在两个复制长片段读取库中的一个中分阶段进行。这两个非相变异体位于低杂合度区域。
除了产生测序的单倍型基因组外,该方法的另一个优点是将错误率从百万分之一降低到千万分之一。
它能够这样做的一个原因是,拥有相位信息可以更容易地识别假阳性,因为它增加了额外的检查层。对于给定的变体,不仅必须有足够的读取量才能称其为真实的,而且该变体不能与相位相矛盾。所以,如果在同一位置发现了两个不同的变异,而且它们都来自同一个亲本染色体,其中一个实际上是假阳性。
Drmanac解释说,在目前的论文中,研究人员首先称之为变异,然后使用标签将来自同一亲本染色体的较长DNA片段拼凑在一起,并由此构建了contigs。
下一个步骤
尽管错误率显著降低,但Drmanac表示,误差的主要来源是在倍数位移放大步骤。每个库包含大约比Complete标准库多15倍的错误,而这些错误绝大多数是由MDA生成的。
Drmanac说,研究人员目前正在优化这一过程,以进一步降低错误率,并提高覆盖率的一致性。在当前的迭代中,每口井中的DNA片段都被MDA扩增了约10,000倍。德马纳克说:“我们希望在未来减少这种情况。”这将有助于减少错误。
该公司还在努力修改其算法,这样它就不会先调用变量,然后再分阶段,而是先分阶段,然后再调用变量。
Drmanac说,要做到这一点,首先需要调用一些杂合snp,以产生足够的信息来相位片段。然后相位信息可以用来调用所有的基。
这样做的好处是,它可以帮助解决没有足够信息调用变量的实例。例如,Drmanac说:“如果我们有5次阅读,我们不知道它们都来自母亲还是父亲。”通过先分阶段,然后调用变体,“突然之间,我们可以看到三个来自母亲,两个来自父亲,所以它们都有相同的碱基。”
颠倒阶段和变量调用的顺序也将有助于调用短indels,他说。在许多遗传疾病中,有短的缺失影响基因的一个重要元素,但这些缺失位于重复序列中。当用传统方法测序时,很难测量这种缺失。
他说:“对于这么短的一段DNA,你无法轻易地测量出它的读取量是否更少。”
但是通过先分阶段再调用变量,它将变得很明显,因为在分阶段之后,从删除的父对象那里将没有覆盖该区域。
此外,他说,研究人员还在研究增加每口井碎片大小的技术。他说,较长的片段有助于区分功能性基因和非功能性假基因。
其他修改包括增加孔的数量,进一步稀释DNA,他说这将有助于解决重复区域,并通过端粒精确排序等事情。
为了实现这一目标,他说该公司正在研究将培养皿的大小增加到10,000个孔的可能性,并将使用纳米液滴技术将微量DNA移液到每个孔中。
Drmanac说,有了10,000个孔,“将会有一个片段”,这将有助于解决“一些不同的奇怪重复和端粒”。由于每口井中只有一个端粒,“我们可以测量端粒的长度,”Drmanac说。
此外,彼得斯补充说,“通过将其放入液滴过程中,整个过程将需要几个小时,而不是一天。”