来自普林斯顿大学和Flatiron研究所计算生物学中心的研究人员开发了一种深度学习方法,他们说这种方法可以预测非编码区域的遗传变异对特定组织中基因表达以及疾病风险的影响。
用这个方法,被称为ExPecto研究人员预测了不同组织中超过1.4亿个突变的影响。他们还确定了可能增加几种免疫疾病风险的突变,包括慢性乙型肝炎感染和克罗恩病。他们认为,该方法有朝一日可以用于帮助研究人员识别基因组非编码部分中与临床相关的疾病相关突变,并开发出可以治疗相关疾病的改进疗法。它还可以提供对基因表达的进化限制的见解,这对理解遗传疾病可能是有价值的,并最终可能成为个性化医疗努力的因素。
该方法的细节和在免疫相关条件的背景下识别与疾病风险相关的变异的努力已于本周发表在自然遗传学.根据这篇论文,ExPecto使用机器学习技术来预测来自基因组启动子区域的40 kb序列的广泛调控区域的组织特异性表达。据研究人员称,这项研究的动机是试图破译在基因组非编码部分中发现的精确的调控代码。
具体地说,“具体地说,”目标是看看我们是否能够,仅基于基因组序列,就能够预测组织特异性基因表达以及任何可能的突变的影响,”普林斯顿大学教授、Flatiron研究所计算生物学中心基因组学副主任奥尔加·特罗扬斯卡亚(Olga Troyanskaya)在接受采访时解释说,他是该研究的合著者之一。她说,“无论是从进化的角度和理解基因表达的进化限制的角度,还是从能够真正从长远来看能够实现个性化医疗的角度来看,”这都是至关重要的。
Troyanskaya说,到目前为止,为理解监管代码所做的大部分工作都集中在理解特定变体的活动上,这需要访问突变本身和相应的基因表达信息。但这种方法的问题是,“绝大多数有影响或有功能的变异,尤其是那些可能导致疾病的变异将是罕见的……所以你不会看到足够多的例子来真正了解它们,”她说。此外,许多探索非编码变异影响的工作主要是在模式生物中完成的。她补充说,考虑到这些生物非编码区域的大小,这些发现并不能很好地转化为更大的人类基因组。
ExPecto建立在现有的表观遗传效应预测方法的基础上深海这在另一篇发表在自然方法2015年由两位作者参与了此次研究自然遗传学研究。正如那篇论文中解释的那样,DeepSea提供了一个基于深度学习的框架来预测序列改变的染色质效应。具体来说,该方法预测序列的表观遗传状态,包括转录结合因子和组蛋白标记,并使用这些信息预测序列变体的染色质效应,并优先考虑功能变体,包括表达数量性状位点和疾病相关变体。
据该公司称,ExPecto在其前身的基础上进行了扩展,包括重新设计的架构和更广泛的序列上下文,以及其他更新自然遗传学纸。为了使用该方法进行预测,研究人员首先生成了一系列潜在的调控序列表示,仅从序列预测变异的表观遗传效应。接下来,他们将预测的基于序列的表观遗传效应整合到40 kb的区域中,以创建一个单一的参考基因组。最后,他们利用整合的表观基因组信息来预测218种组织和细胞类型中的基因表达。
该方法的一个关键组成部分是,它不依赖于现有的变体信息进行训练,这使得预测以前没有观察到的常见和罕见变体的表达效果成为可能;相反,它的重点是学习染色质模式。从之前的DeepSea研究中,“基本的见解是,你可以在硅染色质预测中做到这一点……[模型]不基于变体的例子学习;他们只是使用了一个参考基因组序列的例子……但他们基本上是从整个基因组中学习调控如何在序列中编码的模式,”Troyanskaya说。
作为他们研究的一部分,研究人员通过将ExPecto的预测与eQTL数据进行比较,评估了ExPecto对变异的组织特异性影响的预测的准确性基因型组织表达(GTEx)项目该项目提供了53个人体组织的基因表达和数量性状位点数据。他们的结果表明,预计对基因表达有显著影响的变体ExPecto也已被GTEx研究确定。事实上,根据这篇论文,在影响最强的500个变异中,ExPecto正确预测了92%的表达变化方向。
在论文中描述的另一项研究中,研究人员使用ExPecto对与四种免疫相关疾病(克罗恩病、溃疡性结肠炎、Behçet’s病和乙型肝炎病毒(HBV)感染)相关的新型潜在因果变异进行了优先级排序。ExPecto预测了一些在现有研究中尚未报道的新突变的影响。例如,研究人员根据它们对参与免疫反应的基因表达的影响,对三个snp进行了优先级排序和验证,他们认为这些snp比以前全基因组关联研究提出的变体更有可能导致克罗恩病、慢性HBV感染和Behçet’s病。他们写道,在作为研究的一部分分析的所有7项GWAS研究中,没有一个确定的先导snp显示出“转录调节活性的显著差异”。
开发人员已经将ExPecto的预测免费提供在一个名为HumanBase他们将其描述为生物学和生物医学研究人员的一站式服务,他们对人类基因表达、功能、调节和相互作用的数据驱动预测感兴趣,特别是在特定细胞类型或组织和人类疾病的背景下。用户可以输入一个基因,然后弹出一个潜在的突变列表,这些突变可能会影响该基因在218种组织和细胞类型中的任何一种表达。
ExPecto的开发人员认为,除了靶向治疗开发之外,该工具还可以用于研究突变的进化后果。例如,他们发现突变不太可能影响整个人体表达的基因,而不太可能影响特定组织类型的基因。他们怀疑这可能与在身体各处表达的基因的健壮性有关——考虑到它们的广泛影响,这类基因的突变可能对生物体有害。然而,他们说,还需要进一步的研究。
下一步,该团队计划对ExPecto进行改进,以提高其预测的质量。该团队还将继续在研究突变的进化后果以及评估疾病风险时使用该软件。