高覆盖率全基因组测序(WGS)和最初1000个基因组计划(1kGP)队列的分析,以及完成数百个完整三组的额外样本提出了细胞本周.1kGP代表了最大的完全开放的免费WGS数据资源。它的最终版本主要基于低覆盖率的WGS,包括来自26个种群的2504个不相关样本,包括8470万个单核苷酸变异(snv), 360万个短插入和删除(INDELs),以及单独的68818个结构变异(sv)。虽然该数据集捕获了种群中绝大多数常见snv,但当时可用的生物信息学工具的缺陷限制了对罕见snv的检测,以及整个频谱上的indel和sv。在本周的报告中,由Broad研究所的科学家领导的团队描述了使用Illumina NovaSeq 6000系统对原始的1kGP样本进行WGS,以及另外的698个相关样本,完成了该项目队列中的602个亲子三组,使测序和联合基因分型样本的总数达到3202个。研究人员进行了SNV和INDEL发现,通过机器学习模型集成多种分析方法,生成了一组综合的sv。与第3阶段相比,它们显示了变量调用的灵敏度和精度的提高,并构建了一个改进的参考imputation面板,使这里发现的变量可用于关联研究。通过这项工作,“我们更新了这一关键资源,为下一代大规模国际WGS计划提供了基准和标准,”作者写道。“虽然现在已经进行了许多更大的测序项目,但1kGP样本的开放性将继续使其在未来几年成为社区的基础资源。”