华盛顿大学圣路易斯分校的研究人员领导的一个研究小组,分析了近18000个高覆盖率全基因组序列中罕见和超罕见的结构变异,试图填补对影响基因组中蛋白质编码和非编码部分的较大变异的理解空白。
由于“研究结构变异的工具和资源已经落后于研究较小变异的工具和资源”,研究人员依靠开源和可扩展的分析管道,以现有的svtools软件为中心,从17,795个欧洲、非洲或拉丁裔个体的基因组中搜索插入、删除、复制、倒置和其他结构变异,以及它们对基因或非编码元素剂量的预测影响。
研究小组在一份报告中指出,参与者包括通过国家人类基因组研究所常见疾病基因组计划中心、使用基因组学和流行病学的人口结构(PAGE)联盟成员、Simons基因组多样性小组或其他项目登记的病例或对照,每个基因组都被测序到至少20倍的覆盖率纸发表在自然周三。
“样本量和深度[全基因组测序]的使用使我们能够以高基因组分辨率绘制罕见的[结构变异],并估计有害的[结构变异]的相对负担。”高级通讯作者Ira Hall是华盛顿大学医学院和该中心麦克唐纳基因组研究所的遗传学和医学研究员,他和他的合著者写道,注意到这项工作代表了迄今为止所做的最大的基于基因组序列的人类结构变异分析。
“我们公开发布位点频率数据,以创建迄今为止最大的(基于全基因组测序的结构变异)资源,”作者补充说,尽管他们警告说,目前可用的算法可能不够代表一些重复的结构变异,如移动元件插入、短串联重复和多等位基因拷贝数变异。
平均而言,从每个基因组中发现的4442个结构变异中,研究人员发现缺失出现的频率最高,其次是来自移动元件的插入,以及与串联复制相关的结构变异。每个参与者在基因组的蛋白质编码部分平均有2.9个罕见的结构变异,解释了4%到超过11%的罕见的、高影响的等位基因,这些等位基因在过去的基因中已经被描述过。
在此基础上,研究小组估计,在蛋白质编码基因组中,约17%的罕见功能缺失变异可以追溯到结构变异。在非编码序列方面,每个基因组平均有超过19个缺失——基于被分类为有害的罕见非编码缺失的比例,这种变异似乎对疾病风险有巨大的影响。
作者写道:“值得注意的是,在我们的数据集中出现的罕见的、强烈有害的非编码删除带来的负担。”作者指出,这样的发现“表明对(结构变异)的综合评估将提高罕见变异关联研究的力量。”
除了这些分析,研究人员还描述了近159000个超罕见的结构变异,并进一步研究了编码和非编码基因组序列的结构变异的更广泛的基因剂量后果。
“在基因方面,我们的结果补充了现有的外显子组测序和微阵列数据的估计,”他们报告说。“在非编码元素方面,我们观察到与核苷酸保存、纯化选择、调节元素活性和细胞类型特异性的测量有很强的相关性。”