来自端粒到端粒(T2T)联盟的研究人员已经生成了一组完整的人类参考基因组,这可能会在临床中带来更好的变异呼叫,并为细胞生物学的新研究提供信息。
在周三举行的生物分子资源设施协会年会上,加州大学圣克鲁兹分校(University of California, Santa Cruz)的研究员卡伦·米加(Karen Miga)展示了该项目的结果。
尽管人类基因组的完成于2003年首次宣布,但差距仍然存在。8%到10%的人类基因组仍然是不透明的,尤其是着丝粒和染色体的短臂。
在牛津纳米孔和太平洋生物科学公司的测序和其他方法的结合下,T2T联盟产生了一个无间隙的、高度精确的人类参考基因组,称为T2T- chm13。根据Miga的说法,这种新的参考改善了变体的呼叫,包括医学上重要的变体;为研究复制基因家族提供了新的视角;并指出了着丝点之前未知的特性。
米加说:“这将开启一个新的时代,在这个时代,只调查我们基因组的一小部分将不再是可接受的。”
新的T2T-CHM13组件去年以预印本的形式呈现其中包括2亿个在其他参考文献中没有的碱基,近2000个新基因,以及115个预测为蛋白质编码的基因。它还提供了一个完整的着丝粒图谱。
特别是,该联盟使用了长牛津纳米孔读取和高保真PacBio共识读取的组合,对一个葡萄胎的基因组进行了测序,其中母体基因组丢失,只剩下父本基因组。然后,它使用串图方法和轮次的错误修正来进一步提高准确性。该组合的Q值为73,或者说大约每1000万个碱基中就有一个错误。
Miga指出,由于这种更高的准确性,变体呼叫将得到改进。她和她的同事从“千人基因组计划”(1000 Genomes Project)中选取了3000个Illumina的高覆盖率样本,绘制了当前人类参考基因组和他们的新组合的图谱。当对T2T-CHM13组合进行映射时,他们发现每个样本有数十万个新的变异,同时也发现了数万个假变异。他们进一步指出,医学相关基因的假阳性呼叫减少了12倍。
这一改进的部分原因是由于目前的参考基因组hg38是不同个体的组合,以及代表欧洲和非洲血统的混合序列。这就带来了连锁不平衡不和谐,或者来自不同祖先的片段以在人类中不常见的方式聚集在一起。此外,Miga说,在hg38中,一些基因缺失,而另一些基因在不正确的配置中。
Miga补充说,这延伸到与医学相关的基因,比如那些与严重听力损失和肌肉麻痹有关的基因。她指出,该联盟正在与基因组参考联盟(Genome Reference consortium)合作,对这些医学相关基因进行快速更新。
同时,T2T-CHM13为着丝粒和着丝点的生物学以及基因组的组织方式提供了进一步的见解。着丝粒对染色体分离很重要,包括在早期发育期间,以及在衰老和癌症中。通过将基因组组装与蛋白质和表观遗传数据相结合,Miga和她的同事还发现,着丝点往往在最年轻的序列处形成。“这有点像岩浆上升到地球表面,把东西推出去,”她说。着丝粒和着丝点有时也有复制。
Miga说:“当然,未来的工作将旨在了解这个基因组和我们可以研究的变异如何映射到这个基因组……可以告诉我们新的生物学和功能。”
Miga表示,这只是第一步。T2T财团正在合作人类泛基因组参考联盟使这些类型的完整基因组组装成为常规,并产生更多的人类参考基因组,以反映世界各地人的多样性。