芝加哥(GenomeWeb)——在外显子组聚合联盟(一个外显子组变体调用的海量数据集)首次亮相三年后,它的继承者——基因组聚合数据库(Genome Aggregation Database,简称GnomAD)已经成为临床医生和研究人员研究遗传方差的普遍参考。
布罗德研究所(Broad Institute)医学和群体遗传学联合主任、这两种工具的创造者丹尼尔·麦克阿瑟(Daniel MacArthur)说:“基本上美国各地的每个临床实验室现在都使用ExAC和GnomAD作为标准参考数据库。”麦克阿瑟说:“它现在也被大量用于研究。”
ExAC在2014年美国人类遗传学学会会议上首次亮相,包含了对60706个人类外显子集合的变异呼叫的分析,远远超过了之前的任何数据。麦克阿瑟说,ExAC和GnomAD网站合起来的页面浏览量超过1100万次,每天的点击量约为1万次。
麦克阿瑟于2012年3月在布罗德和麻省总医院成立了他的实验室,在那里他是分析和转化遗传学部门的小组负责人。大约在那个时候,医院刚刚开始对罕见疾病患者的外显子序列进行测序,尤其是患有肌肉营养不良症和肌病的儿童。
“我们知道,在大多数情况下,这些疾病是由他们DNA中发现的一种或两种变异引起的。”麦克阿瑟将军说。
他指出,找到这些变异的方法是对患者和近亲的外显子序列进行测序,并寻找“在一般人群中极其罕见的”变异。麦克阿瑟说:“为了弄清楚我们在患者身上发现的这些变异,我们需要能够将这些变异与普通人群中数量非常非常大的测序个体结合起来。”理想情况下,这需要成千上万的人。
当时,有一些资源可以帮助科学家解释这些变体千人基因组计划该公司拥有约2500人的测序数据外显子组测序项目该机构拥有另外6500人的数据。麦克阿瑟说,“这些肯定很有价值”,但它们不足以理解变异谱上的异常值,而且在种族和民族上的多样性也不足以满足麻省总医院的需求。
因此,ExAC诞生了,尽管它花了一年半的时间来开发。“我们已经学会了如何大规模地生成不同的调用。我们现在可以非常快速、廉价和准确地在数万个样本中进行变体调用,”麦克阿瑟说。
GnomAD在2016年10月取代了ExAC,当时MacArthur的集团发布了核心集的更新共有126,216个外显子体和15,136个全基因组序列。“在GnomAD中,你不仅可以看到基因组中蛋白质编码部分的变异,还可以看到非编码部分的变异,”他说。
“我意识到这对我实验室以外的人来说将是一个有用的资源,”麦克阿瑟说。“我们最初考虑建立这个网站主要是为了促进我们自己的罕见疾病研究,但当我们开始把它放在一起时,我们从那些只想获得它的人那里获得了巨大的兴趣,所以我们确保我们尽可能公开地提供它。”
例如,对研究个体变异的人没有禁令。“人们从一开始就大量使用这些数据,”麦克阿瑟报告说。“在ExAC和GnomAD的背景下,我非常自豪的一件事是我们能够如此快速和公开地发布数据。”
MacArthur的实验室在2016年ASHG发布前大约一个月就完成了GnomAD呼叫集合。麦克阿瑟说:“我们只是疯狂地清理数据集,并将其发布,我们几乎在觉得它准备好了的时候就向世界发布了,甚至可能稍早一点。”这意味着其他人不必等待布罗德分析数据并发表科学文献来利用这一资源。
“这是一种相对较新的科学研究方法,”麦克阿瑟说。“但我认为这是一种最能赋予科学界力量的方法。这不仅是因为我们相信开放科学是一种很好的做事方式,而且我们现在有一个由107名主要研究人员组成的社区,他们允许他们的数据被用作ExAC和GnomAD的一部分,他们同意我们的观点。”
GnomAD团队现在正在研究一个新的核心集,专注于全基因组,目标是在几周内发布大约65,000个全基因组的数据。麦克阿瑟说:“这将是有史以来最大的人类基因组集合。”
2018年上半年,基因组聚合数据库计划发布下一个外显子组核心集,大约有25万个外显子组,几乎是目前样本数量的两倍。麦克阿瑟说:“我们希望这将使我们能够真正深入了解人类蛋白质编码基因变异的影响。”
布罗德将继续对核心集进行相同类型的分析。麦克阿瑟说:“我们将尽可能迅速公开地提供这些数据。”
与此同时,他对GnomAD的进化抱有很高的期望。
作为博德孟德尔基因组学中心(Broad Center for Mendelian Genomics)的联合主任,他对提高罕见疾病的诊断率特别感兴趣。该中心每年对几千个家族进行测序。
“目前,我们只能诊断出30%到40%的家庭,所以我们需要做得更好。构建更大版本的GnomAD会有所帮助,但我们还需要在构建使用它们的统计框架方面做得更好,”MacArthur说。
远大一直在与各种合作者合作,“开发和部署这些框架,”他说。
麦克阿瑟对他希望科学在五年内达到的水平有自己的想法。当患者出现未确诊的症状,可能是一种罕见疾病时,他希望临床医生安排测序,然后让测序报告包含三个关键信息。
“首先,在GnomAD这样的大型人口数据库中,是否曾出现过这种变体?我们的目标是以这样一种方式构建GnomAD,它是经过良好验证的,并作为默认的临床参考数据集,”MacArthur说。
“第二件事是:这种变异以前在病人身上见过吗?”麦克阿瑟说,ClinVar等数据库收集特定疾病患者的变异信息,但它们可以做得更好。他指出,ExAC和GnomAD可以通过识别ClinVar列出的可能太常见而不会导致疾病的变体来提高这些集合的质量。
“第三点,我们没有投资,但也需要发生,就是你需要能够说,‘对于这个特定基因中的这种变体,如果你对该基因的功能进行检测,这种变体是否真的改变了该基因的功能?’”麦克阿瑟将军继续说。
“如果你有这三类信息——人口、患者频率和与该变异相关的特定临床表型,以及功能性证据——一旦我们有了基因组中所有变异的数据,我们基本上可以将这种变异解释过程从现在的那种黑魔法转化为基于证据的科学。”
MacArthur设想了一个正式的统计框架,根据对每种变体的了解,列出了疾病关联的置信水平。“一旦我们做到了,那么临床遗传学就真正成为了一门真正的数据科学,”他说。“我们的目标是建立尽可能大、尽可能清洁的资源,为未来赋能,让建设变得尽可能容易。”