纽约(基因组网)-普通疾病基因组学中心(CCDG)项目创建了一个标准化的管道,以帮助其科学家分析来自多个机构的数万个基因组的数据。
美国国立卫生研究院的国家人类基因组研究所去年资助了该计划拨款2.8亿元,分四年发放。它的四个主要中心分别位于麻省理工学院和哈佛大学的布罗德研究所、贝勒医学院的人类基因组测序中心、纽约基因组中心(NYGC)和圣路易斯华盛顿大学医学院的麦克唐纳基因组研究所。然而,除了四个主要中心的研究外,其他机构也在进行较小规模的测序工作。
CCDG项目的主要研究员之一、来自华盛顿大学的麦克唐纳基因组研究所副主任Ira Hall在一次采访中说,该项目的首要目标之一是发现常见疾病的新变异,最初的重点是心血管、自身免疫和精神疾病。
每个中心都有一个疾病专业领域,这意味着并非所有中心都在所有三个重点领域开展工作。例如,华盛顿大学的研究人员主要专注于冠状动脉疾病和1型糖尿病人群的测序,而纽约癌症中心的研究人员正在生成和处理全基因组序列数据,以研究精神疾病和哮喘。同样,贝勒和布罗德研究所的研究人员也有特定的关注领域。
与基因先驱项目如1000个基因组计划和外显子组聚合联盟一样,CCDG正致力于对大量的全基因组进行测序——在该项目的生命周期内,研究人员希望对来自不同来源的15万到20万个全基因组进行测序。
霍尔说:“(CCDG)没有一笔资金用于新样本的收集。”相反,该联盟正在与医学界合作,从已经建立的队列中对样本进行测序。例如,NYGC正在研究自闭症的遗传风险因素,它的研究人员从Simons基金会自闭症单纯性收藏馆获得了大量样本。
研究人员还非常重视他们将纳入的测序样本的种族多样性,并旨在包括尽可能多的非欧洲血统的样本。例如,WashU已经开始尽可能多地对符合其心血管疾病研究要求的非裔美国人后裔的样本进行测序。霍尔说,迄今为止,WashU团队已经对来自多个机构的样本进行了测序,包括西奈山卫生系统、杜克大学和宾夕法尼亚大学。研究人员还打算在他们的研究中包括拉丁裔、西班牙裔和亚裔后裔的样本,以确保序列能够代表更大的人群。
CCDG研究人员必须克服的第一个障碍是将测序分析标准化。麻省总医院和布罗德研究所分析和转化遗传学部门的助理教授本杰明·尼尔(Benjamin Neale)说,虽然大多数机构产生原始测序数据的方式基本上相同,但用于下游分析的变体集可能存在显著差异。
他解释道:“到目前为止,我们还没有协调所有的内容,但我们已经协调了计算密集型的部分,以及管道中成本最高的部分。”
尼尔指出,标准化的一个关键组成部分是确保所有机构都有相同的质量分数线。他说:“质量分数帮助我们确定每一个来自测序器的碱基呼叫的证据有多好。”
霍尔说,分析基因组序列的第一步——对参考基因组的读取比对、排序、重复标记、基础质量评分重新校准以及前面的变量调用的各种其他步骤——是70%到80%的分析成本的来源。
一般来说,在全基因组测序数据分析项目中,研究人员必须确保所有结果彼此具有可比性。当比较不同机构生成的序列时,这可能是棘手的,但大多数研究人员之前已经通过使用相同的管道重新处理基因组数据集来解决这个问题,以确保可比性。
但这在像这样的大型项目中是不可行的,霍尔说。重新处理数以万计的数据集是极其昂贵的,并且需要研究人员投入大量额外的时间来做已经做过一次的工作。
霍尔说:“这是基因组学界长期以来的一个问题。”他补充说,大多数机构都花了大量的时间和金钱来建立自己的管道,因此很难采用全新的方式。
为了开始跨机构的管道标准化过程,尼尔和霍尔与CCDG的四个中心、NIH的基因组测序计划协调中心(GSPCC)以及其他几个参与CCDG的小型项目的机构的一些人进行了合作。这其中包括迈克尔·佐迪(Michael Zody), NYGC的计算生物学高级主任;贝勒医学院高级生物信息学程序员William Salerno;密歇根大学生物统计学教授Goncalo Abecasis;Tara Matise和Steve Buyske, GSPCC的联合主任;和其他人。
佐迪说,研究小组首先确定了每个中心管道的哪些方面不同,这些方面可能会影响人们可以或不可以改变什么。大多数中心都使用Illumina测序技术生成原始数据,但原始数据处理方法不同。因此,佐迪和他的同事们把注意力集中在标准化中心在分析前如何处理和存储原始数据上。
“许多跨映射和对齐的东西是相对稳定的,”尼尔说。“(基因组比对)是我们能够完全标准化的一个领域,”佐迪补充说。
在其他领域,修改软件以实现小组认为优先考虑的目标是最有意义的。佐迪说:“按照不同的顺序做事有技术计算上的原因。”例如,标记副本是他们必须更加灵活的一个领域。“(这)是一个计算密集型的过程。每个中心对于如何标记它们有不同的优先级。”
另一个处理过程比较复杂的领域是数据存储。例如,一些机构已经与特定的云存储提供商建立了关系。Matise说,理想情况下,整个程序将与一家云存储提供商一起工作,因为这是存储数据最划算的方式。她补充说,这是不可能的,但这些机构能够简化他们的需求,使用两种基于云的服务,谷歌Cloud services和DNAnexus,以及每个各自机构现有的内部基础设施。
研究人员确实在优化他们计划的数据存储方式。佐迪说:“我们最小化了存储的信息量,但要确保没有带走任何东西。”“最小化文件大小的主要目标是减少存储成本,但减少网络传输时间也是一个主要考虑因素,”他补充说。
Neale说,虽然第一年在这个标准化上投入了大量的努力,可能看起来很乏味,但结果是,这些中心都可以对使用这些标准处理的序列有更高程度的信心,使用这些标准处理的序列将是可比较的,尽管他指出,在处理过程中仍有很多上游变化可能会起作用。
研究人员在去年11月确定了管道标准,并开始了第一波测序和数据处理。他们计划在今年晚些时候发表管道标准化方面的工作,以确保任何想要使用该项目数据或有一个基线来启动未来大型数据处理项目的研究人员都可以公开获得它。
该小组希望管道标准化将带来的一件事是,它将帮助大数据生产过程更容易地协调不同机构之间的排序。佐迪说:“这些大型项目的价值之一是,它提供了建立此类标准和最佳实践的机会。”他补充说:“虽然我们正在做的很多事情看起来与1000个基因组计划相似,但我们已经更新了它(到目前的测序方法)。”
霍尔说,另一个好处是,当单个实验室进行小规模研究时,它可以将其序列数据使用标准化管道,这将允许它将其数据与CCDG希望创建的人口数据库进行比较。