由美国和德国的研究人员领导的一个国际团队已经证明,在长读取序列数据的帮助下,可以在单倍型解析的人类基因组中发现广泛的结构变异。
“这种对基因组的更好理解使我们能够确定遗传不稳定的新热点,这对预测疾病发生的地点和原因非常重要——尤其是罕见的变异,”华盛顿大学医学院的基因组科学家埃文·埃奇勒(Evan Eichler)在一封电子邮件中说。
当他们报道在科学周四,研究人员使用连续长读或高保真长读太平洋生物科学测序,再加上对数万个单个细胞的单细胞模板链测序(strand -seq),将数十个新的、高质量的分期单倍型基因组组装在一起。
“这项工作为人类基因组的结构、变异和突变提供了根本性的新见解,”作者写道,“为今后对数千个人类基因组进行更系统的分析提供了一个框架。”
通过64个单倍型组合——代表来自非洲、美洲、东亚、南亚和欧洲二十多个人群的32个个体——他们发现了过去使用短读基因组测序方法遗漏的大量结构变异,包括近107600个插入或删除变异,300多个倒置变异,以及数百万个小的插入或单碱基变化。
Eicher解释说,对基因组的精细观察揭示了传统全基因组测序方法所遗漏的结构变异。他补充说,由于这种变异在患有某些疾病的个体中似乎过多,“有大量未确诊疾病的患者需要进行调查。”
该团队的发现还突出了人类基因组中278个明显的结构变异热点,同时提供了促成新结构变异的机制及其一些调控和功能后果——从改变基因功能的罕见变异到在基因组调控区域发现的变异。
例如,研究人员通过将基于单倍型解析序列的基因分型方法应用于可用的RNA序列和短读基因组数据,追踪到2100多个影响1526个基因表达的基于结构变异的表达数量性状位点(eqtl)。
除了对疾病生物学的深入了解之外,不断增长的结构变异集有望更清楚地了解潜在的有益变异,这些变异在适应不同环境的人类群体中的个体中过度代表。
“有了这些新的参考数据,在全球遗传变异的背景下,可以以前所未有的准确性研究遗传差异,这有助于对个体携带的遗传变异进行生物医学评估,”共同第一作者、德国海因里希海涅大学Düsseldorf的研究人员彼得·埃伯特在一份声明中说。
Eichler指出,人类基因组结构变异联盟和人类泛基因组计划正计划应用类似的方法来提出大约500个单倍型解析的人类基因组。
Eichler说,参与当前研究的研究人员还在继续寻求以更高分辨率分辨的人类基因组组合,目标是完成每一个碱基对,并确定其亲本来源,从染色体的一个端粒到另一个端粒。
“随着成本的下降和技术的改进,我相信这种方法最终将用vwin德赢ac米兰合作短读取代商业全基因组测序,”Eichler说,并解释说,以长读为阶段的组装“提供了我们从未见过的变体。”