纽约-一个国际研究小组在四名欧洲血统的个体中描述了二十多种组织类型的遗传变异的功能,这些个体也通过高质量的长读测序进行了评估。
耶鲁大学生物信息学研究员、资深联合通讯作者马克·格斯坦在一封电子邮件中说:“这个目录可能使我们能够以一种可推广的方式引导确定其他新个体的等位基因变异。”“对于一个欧洲人来说尤其如此。”
利用太平洋生物科学公司的长读测序、牛津纳米孔长读测序、链读10x基因组测序和Illumina短读测序,他和他的同事们能够为参与基因型-组织表达(GTEx)项目的两名男性和两名女性个体生成代表母系和父系单倍型的基因组序列。这些数据与应用于参与者大约30个组织的大约15个功能基因组分析的结果结合起来进行了分析。
研究小组在一篇文章中描述了所得到的EN-TEx数据集研究发表在细胞周四。与相应的统计和深度学习模型一起,EN-TEx有望在未来帮助注释和解开个人基因组序列中产生的组织特异性变异效应。
Gerstein解释说:“有了高质量的基因组和EN-TEx中匹配的测定和组织,等位基因特异性事件的目录可以帮助以极其精确的方式确定变异影响,因为在比较母系和父系单倍型时,人们有一种‘自然控制’。”他指出,该目录“让我们为变异影响开发可推广的模型。”
通过这些模型,研究小组表明,他们可以突出在表达数量性状位点(eQTL)或通过全基因组关联研究确定的位点中过度代表的调控元件,同时标记出变异变化具有最明显调控影响的基因组部分。
作者报告说:“令人惊讶的是,深度学习转换器模型可以仅根据局部核苷酸序列上下文预测等位基因特异性活性,突出了转录因子结合基序对变体特别敏感的重要性。”“此外,将EN-TEx与现有的基因组注释结合起来,揭示了等位基因特异性和GWAS位点之间的强烈关联。”
Gerstein说,新开发的EN-TEx模型还提供了一个机会,将在容易获得的组织(如血液)中发现的eQTL效应转移到另一个组织或器官类型,提供了“对GTEx eQTL目录的重大扩展,将未鉴定的变体与具有已知功能的基因联系起来。”
因此,这项工作扩展了早期的努力,以了解基因组的调控部分及其影响,如GTEx或ENCODE,引入了广泛的分析工具、变体类型和数据集,系统地评估超过100万个等位基因特异性位点。
Gerstein指出,EN-TEx资源目前不包括脑组织的数据,他补充说,扩大工作范围,包括这些数据,以及来自其他非欧洲人群的类似数据集,将是有益的。
他说:“将EN-TEx方法扩展到更多的个体将是非常强大的,允许人们开展类似qtl的研究,然后包括具有不同祖先的个体(例如,非洲或亚洲血统)。”他指出,目前的EN-TEx收集正在免费提供给其他研究人员。
“我们设想,在不久的将来,随着测序成本的降低,生成匹配的个人基因组序列作为每个功能基因组学实验的伴随将成为常态,”他和他的合著者写道,并补充说,“用于分析基因组变异影响的EN-TEx个性化表观基因组学方法将必然变得普遍,可能为精准医疗带来好处。”