纽约——在去年Element Biosciences公司的新测序仪的beta测试中,一位客户在使用10x Genomics公司的单细胞分析时很快就遇到了问题。
10x公司用于单细胞测序数据分析的Cell Ranger软件中止了运行,并发出了错误信息。的原因吗?令人惊讶的是,Element的数据太准确了,Phred的质量分数为Q40-基本调用错误率为万分之一。这比Q30的精度标准(错误率为千分之一)高出一个数量级。
10x的计算生物学高级总监奈杰尔·德莱尼(Nigel Delaney)在一封电子邮件中说:“当时,市场上没有兼容测序仪的QV(质量值)得分高于40,所以《细胞巡游者》的质量控制参数之一是将QV得分高于40视为可能的错误。”此进程将此类数据视为已损坏,结束运行并返回错误消息。
10x很快发出了单行代码修复但随着Element、Pacific Biosciences等公司凭借改进的测序化学技术,在Phred尺度上攀登到新的高度,这种情况凸显了动荡的可能性。虽然这些仪器可能能够提供Q40以上和更多的碱基,但更大的测序生态系统可能还没有准备好。
更高的准确性将有助于开启NGS的新用途——或者至少有助于降低某些应用的成本,例如癌症中的罕见变异检测——但从生物信息学到样本制备,Q40数据正在提出或暴露问题。软件程序并没有优化到使用这些数据,库的准备方法甚至可能会引入错误,直到现在,这些错误都被认为是背景噪声。
Element的首席科学官肖恩·利维(Shawn Levy)说:“我们已经习惯了从一个角度看问题。”“对于图书馆准备工作是这样,对于软件是这样,对于(估计排序偏差)也是这样。”他乐观地说,这意味着“我们现在有机会重新审视我们的工具,并有机会在提高测序质量的同时改进这些工具。”
但是,就在这些技术不断挑战精度的极限时,一些研究人员正在追求测序概念的新定义,即基于变体调用性能,而不是基于每个碱基的统计数据。
"Element首席技术官兼联合创始人Michael Previte说:“很多人会谈论Q40数据,就好像它是一切和结束一切一样。“我们知道,也做了科学研究来理解这意味着什么,在谈论准确性时,这并不是唯一重要的事情。”
40岁是新的30岁
多年来,Q30的准确性一直是测序领域的一个神秘门槛。根据定义,它表示某个基本调用正确的概率为99.9%。更一般地说,这个所谓的Phred分数是一个方程的输出,其中Q= -10log10(P),其中P是错误的概率。因此,Q30意味着每基错误率为千分之一。为了达到超精确,测序仪规格表列出了预期达到或高于一定Phred分数的碱基百分比。Illumina公司表示,其NovaSeq 6000是短读测序的典范,具有S2流式细胞,可以在2x150 bp的运行中提供超过85%的Q30或更高的碱基。(末端配对测序本身是另一种提高测序准确性的方法。)
高精度对于大多数测序应用都很重要:对于全基因组测序,它可以实现高质量的组装,而对于有针对性的、大海捞针的用例,它增强了人们可以说他们发现了不同的或重要的东西的信心。
“一般来说,准确几乎总是更好,”威尔康奈尔医学院的测序专家克里斯·梅森(Chris Mason)说。“如果你想观察真正罕见的等位基因或最小残留疾病,你要么需要大量的读取,要么需要非常高的准确性,所以如果你看到一两次,你就可以确定它是真实的。”
获得Q40数据有助于绘制致癌变异或早期癌症检测,以及人类白细胞抗原(HLA)分期用于免疫学研究或临床器官移植。
利维认为,高度准确的读数对新生婴儿也很有价值“低通排序”应用程序在美国,报道并不总是能提供强有力的共识。”这就是你开始看到Q40阅读价值的地方。”
有了短读测序的新方法,Element的“亲切感排序”以及PacBio公司的“结合测序”,这是该公司8亿美元投资的一部分Omniome收购在2021年,他们提供了一种测序准确性的新范式。
元素的11月预印其方法显示,96%的基本呼叫高于Q30, 85%高于Q40,在Q44达到峰值。上个月,PacBio出现了来自两次内部测试运行的数据该公司的新短读测序平台Onso表明,90%的碱基的质量分数远高于Q40,准确率为99.99%。
一些Onso测试客户,如Mason,甚至看到在100 bp的读取长度中,大多数碱基超过Q50,或10万分之一的错误。最近未审核的数据梅森实验室的研究表明,超过85%的碱基在Q50到Q55的范围内。
Illumina的新XLeap-SBS化学试剂也可能达到这些类型的Q分数。然而,在9月推出的NovaSeq X -第一台运行这种新化学物质的仪器-具有与其前身相同的精度规格。
即使是长读测序方法,曾经被认为是容易出错的,也可以提供Q40以上的读取,但与短读平台的一致性不同。在上个月的基因组生物学和技术进展年会上,加州大学圣克鲁兹分校的研究人员凯伦·米加说vwin德赢ac米兰合作提出了数据显示了使用PacBio公司的HiFi和牛津纳米孔技术公司的HiFi生成的读取精度图vwin德赢ac米兰合作双向测序方法,每个方法的峰值都在Q40附近,尽管分布的中心更接近Q30。
测序领域是否过于强调Q分数?“是也不是,”他说亚当Phillippy他是该校基因组信息科主任NHGRI。“人们并不太重视质量,但细节才是关键。”
他指出,Q分数是一个平均值,分数的分布可能隐藏了对某些错误的偏见。总的来说,这些新技术在测序较长的重复序列时存在一些弱点,贾斯汀祖克美国国家标准与技术研究所研究员、“瓶中基因组”(vwin德赢ac米兰合作GIAB他在一封电子邮件中说。他补充说,了解新方法在哪些方面不那么准确将是重要的。
但新方法也会产生不同于以前的错误,这可能有助于向生物信息学家展示隐藏的盲点。长均聚物,Zook说,基因组中经常重复相同字母的区域就是这样一个区域,新方法可能会有所帮助。
上下游
然而,简单地使用高Q值的读数不会立即改变基因组学。除了Cell Ranger的例子,Element的官员说,生物信息学管道需要调整,以便研究人员从更好的数据中获得最大的收益。Element公司的Previte表示:“我们很好奇,为什么我们没有看到像预期的那么多显著的好处。”
生物信息学家用来处理错误的技巧,比如软剪辑——不与参考对齐的屏蔽基——或读取过滤,都是基于处理Q30数据时有用的假设,但可能不适用于Q40。Levy说:“甚至还对调用某个变体所需的读取深度进行了假设。
在测序工作流程的另一端,更好的准确性是暴露样品制备过程中引入的错误,这些错误在SBS过程中被放大DNA所掩盖。
“一旦你引入PCR, Q分数就开始恶化,”Previte说。他说,Element接近于明确Q40数据只能通过不含pcr的库制剂获得,尽管他建议该公司找到了一种样品制备解决方案,以确信其准确性。
样品准备化学开发人员意识到这些问题。新英格兰生物实验室的一位发言人在一封电子邮件中说:“基于准确性和其他质量指标,我们确实看到了改进的机会。”该公司一直在与几家测序公司合作,以确保仪器和样品制备产品之间的兼容性,并将Q40测序的出现视为将焦点放在高保真聚合酶上的一种方式。
上下游技术需要多长时间才能调整,还有待观察。Phillippy认为任何软件问题都很容易解决。他说:“更高的精度让一切变得更容易。”“像(谷歌的)DeepVariant这样的基本调用者必须接受新的数据类型的重新训练,但如果它只是更高的精度,它就会更好地工作。”
一个奇妙的循环
当各公司都在推动测序仪的技术性能时,一些研究人员正在重新思考测序“准确”的含义。
根据Element的Previte和Levy, Q分数只是准确性的一个方面。在内部实验中,Element科学家模拟了通过分析管道运行的完美读取。Levy表示:“这让我们能够调整对Q40数据的预期。”“最重要的一课是,准确性不能孤立存在。”
他们说,不仅文库准备和对齐会影响数据质量,其他测序指标也会影响数据质量,比如插入大小(测序适配器之间的DNA长度),读取是成对端还是单端,以及读取长度的一致性。(Q分数往往会在阅读接近尾声时下降。)
另外,菲利普正在着手一个新项目,他希望这个项目能重新定义准确性的概念。把他的工作集中在组装上参考基因组与人类pangenome而且Telomere-to-Telomere在过去的几个月里,菲利普已经开始谈论另一个“雄心勃勃的”项目:Q100基因组。
除了是一个不错的整数,它代表了100亿个碱基中的一个错误,或者是合理确保一个完美的6gb二倍体人类基因组所需的精度水平。Phillippy承认,一个完美的基因组现在根本不可能,他指出核糖体DNA重复序列超出了即使是最长的纳米孔的读取长度。但朝着完美基因组的方向努力,可能有助于创造他所设想的基因组测序的第一个“全面基准”。
他说:“我对Q100的目标是将完整的二倍体基因组作为基准,”而不是一个基因组中的一组变体。“迄今为止,基准测试一直基于基因组中独特的、易于调用的区域。只要这是标准,就能推动进步。如果你只考简单的部分,就很容易取得好成绩。”
具体来说,菲利普想让GIAB样本HG002成为第一个完全准确的人类基因组。他已经开始与Zook讨论这个项目。菲利普说,提早返回可能是阅读长度和准确性之间权衡的一个模型。“包括令人讨厌的部分”,如着丝粒,将推动技术开发人员创造更好的测序方法,可以调用人类基因组中的所有东西,包括结构变异。vwin德赢ac米兰合作
基准测试将改进测序技术,而这反过来又将有助于完善基准测试。vwin德赢ac米兰合作“这是一个奇妙的循环,”他说。“直到一切都完美。”