纽约——本周,在虚拟举行的美国人类遗传学学会年会上,来自端粒-端粒联盟的研究人员分享了通过分析无间隙人类完整葡萄胎基因组组装得到的第一个洞见。
集会,这是第一次发布作为之前的预印本一年它包含的信息比最初认为的要多,比任何其他组装都多约200 Mb的内容,包括超过2000个新基因,其中115个预计是蛋白质编码。研究人员发现了以前无法获得的数据特征,如着丝粒、卫星串联重复、远端中心短臂和节段重复。在周二的一次会议上,国家人类基因组研究所T2T联合主席和基因组信息学负责人Adam Phillippy说,第一次发现了5个新的染色体臂,包含66.1 Mb的新序列。这些基因构成了大部分的新基因,包括879个核糖体RNA基因。
“这个基因组揭示的问题比答案更多,”加州大学伯克利分校(University of California, Berkeley)的博士后尼古拉斯·阿尔特摩斯(Nicolas Altemose)说,他在同一届会议上展示了染色体着丝粒卫星串联重复序列的全基因组分析。但是通过装配,他的团队能够为着丝粒进化的所谓“分层扩展”模型提供证据,即离着丝粒核心更远的区域代表更古老的转座元件。“这些分子化石可以告诉我们着丝粒不同层的年龄,”他说。
大约81 Mb的新数据与分段复制有关,分段复制是不同染色体上的长段DNA,它们共享90%以上的序列标识,并包含大约一半的拷贝数变体。华盛顿大学Evan Eichler实验室的博士生Mitchell Vollger说,其中约35mb的基因位于远端中心短臂上,其中182个新基因与片段复制有关。
此外,据约翰霍普金斯大学温斯顿·提普实验室的博士生Ariel Gershman介绍,该组合比基因组参考联盟人类构建38 (GRCh38)多包含约300万个CpG位点,后者更有可能被甲基化。
这些发现应该对荧光有意义原位杂交探针设计,甚至临床基因组测试,研究人员说。
T2T联盟在6月宣布了第一个无缝隙的人类基因组组装——减去Y染色体,这使该领域接近真正完整的生命食谱。他们自2018年以来一直致力于该项目,并在2020年基于牛津纳米孔技术公司平台的长读取,提供了X染色体的无间隙组装,但转向了一种策略,主要使用太平洋生物科学公司的HiFi读取,并借助超长纳米孔读取。
Phillippy、Altemose、volger和Gershman的会议发言代表了迄今为止T2T-CHM13工作中预计产生的新论文的大约一半。他们指出,关于遗传变异和重复元素的转录和表观遗传状态的论文也在进行中。
由Gershman而且Vollger被贴在BioRxiv五月,而阿尔特摩斯分析是7月发布的。
Altemose和Gershman提到的一个独特的发现是,所有的人类着丝粒似乎都有较低的CpG甲基化区域,这也与着丝粒蛋白A或CENP-A结合有关。
Altemose说:“CENP-A[结合区域]倾向于重叠更年轻、更近、扩展的序列。”“关于为什么这些区域重合有很多有趣的问题。”他说,可能会有“中立”的解释来解释为什么会发生这种情况,但也指出有可能着丝粒是与着丝粒相关的蛋白质复合物,在选择优先结合着丝粒的序列中起着积极的作用。
格什曼说,在所有的着丝粒中都存在着低甲基化的着丝粒倾角区(CDR),这一事实已经通过使用不同的样本(HG002)以及1000基因组计划中不同谱系的细胞系进行了验证。着丝粒是高度可变的,CDR与研究人员观察的每个个体的卫星重复序列的不同部分相匹配。
格什曼说:“这是第一次观察人类着丝粒在人群水平上的表观遗传变异。”
研究结果具有多种临床意义。Vollger对脂蛋白a基因(LPA)中的串联重复结构域进行了分析,LPA是与冠心病风险最相关的基因之一。“它的重复内容对它的风险因素非常重要,”他说,拷贝数越低,风险越高。研究了20种不同的单倍型,他们发现了LPA的拷贝数变异和编码变异。
在问答环节中,Altemose被问及临床实验室是否应该基于新的参考基因组重新设计他们的FISH探针。阿尔特摩斯说:“简短的回答是肯定的。“我们有能力为FISH或Cas9(基因组)编辑开发非常特定的探针。”
“我们正在探索一个全新的探测器设计领域,”菲利普补充道。
至于变异呼叫,Phillippy说:“我们所知道的很多影响变异存在于GRCh38中。”“这些变异仍然有效,”事实是,已经有验证过的分析方法可以找到它们,这意味着他看到了使用两个参考基因组的价值。
他说:“参考资料的好坏取决于与之相关的资源。”“我们认为开发举升工具是社区的一大需求,可以让我们在这些坐标系统之间进行转换。”
Phillippy还说,一个无间隙的人类Y染色体组装正在进行中,应该会在未来几个月内实现。