瓶中基因组联盟(GIAB)公开发布了一个基准数据集,用于调用插入和删除大于50 bp的种系结构变异(SV)。
该基准集包含7281个序列解析插入和5464个删除,可用于识别正常非肿瘤样本中的假阳性或假阴性SV调用。数据还包括可能发现这些呼叫的基因组区域,这对于识别假阳性变异呼叫至关重要。
该团队使用了来自几种测序和基因组定位技术的19种不同的变体调用方法来构建基准集。在周一发表的一篇论文中自然生物技术vwin德赢ac米兰合作,研究人员展示了在短读和长读的下一代测序数据以及光学测绘数据中识别变体调用错误的能力。来自太平洋生物科学公司、罗氏公司、Bionano基因组公司、10x基因组公司、Nabsys公司、谷歌公司和Spiral Genetics公司的研究人员对这篇论文做出了贡献。
美国国家标准与技术研究所研究员、GIAB负责人贾斯汀·祖克(Justin Zook)说:“我们试图将尽可能多的不同技术的信息结合起来,形成这个呼叫集。”vwin德赢ac米兰合作“一个挑战是,一个方法通常不会完全正确地调用,它可能会有一点偏差。我们所做的部分工作是开发一种方法,以稳健的方式比较这些结构变体。”他补充说,该小组严重依赖从头组装方法来检测特定类型的sv。
GIAB成员已经可以使用这些数据的早期迭代。加州大学圣克鲁斯基因组研究所的计算生物学家Benedict Paten在一封电子邮件中写道:“我们一直在使用GIAB结构变异数据。”UCSC是GIAB联盟的一部分,但Paten不是该联盟的作者自然生物技术vwin德赢ac米兰合作纸。“事实证明,它对开发和测试新方法非常有用。”模式有使用数据他的实验室帮助建立了人类泛基因组的图形表示。
GIAB是一个由NIST领导的全球性公私合作联盟,旨在描述人类基因组。到目前为止,该小组已经集中研究了7个基因组、一个试点基因组和两个经个人基因组计划同意进行商业再分配的母亲-父亲-儿子三人组。除了参考资料GIAB一直在研究较小的indel基准测试数据集,并于2019年4月发布自然生物技术vwin德赢ac米兰合作.Zook表示,该联盟现在已经创建了一个更新的小型变体基准集,并计划很快将其公之于众。
结构变体的工作始于2016年,当时社区开始从各个方法中收集SV调用集,并开始相互比较。Zook指出,基准测试过程是迭代的。“我们发布草案供社区尝试使用。如果我们发布初稿,一开始就不会出现误报和误报。”Zook说,GIAB在发表这个版本之前至少经历了四个不同的版本。
用于创建基准集的完vwin德赢ac米兰合作整技术列表包括Illumina和Complete Genomics的短读测序;10x现在已经停止使用Linked Reads方法;PacBio的长读测序;Bionano Genomics的光学基因组图谱;Nabsys公司的电子地图。作者指出,测绘技术被用于SV大小的估计。Zook补充说,牛津纳米孔技术公司的平台没有被包括在内,因为在分析开始时,GIAB还没有使用该平台。
最后的大型indel调用集有两个文件,一个是VCF文件,一个是bed文件,它显示了可能会找到调用的区域。
Zook和他的合著者承认,这些数据仅限于结构变异宇宙的一小部分。作者写道:“最值得注意的是,我们选择排除复杂的sv和我们无法确定共识序列的sv。”“将我们的集合限制为孤立的插入和删除,删除了大约一半的SV,其中有强烈的证据表明发生了一些SV。”因此,重复和节段重复不包括在内。Zook注意到一些复杂的sv,包括基因重组如kataegis和chromothrpsis,通常与癌症有关,不在本项目范围内。
虽然社区希望基准测试能有所帮助,但每个人都认为还有很多工作要做。
Paten说:“在未来,我们希望看到SV集与基准单核苷酸变体集和小型indels集之间更紧密的集成。”
GIAB正在从牛津纳米孔的平台以及PacBio的新平台收集人类参考基因组GRCh37和GRCh38的新的大型indel调用集高保真的读取而且Strand-seq.
这个SV基准测试将继续迭代:“我们不期望这是最终的,”Zook说。