在本周于波士顿举行的年度全体会议上,全球基因组学与健康联盟(GA4GH)宣布推出五项新标准,旨在支持和实现负责任的基因组数据共享。
这五个标准是作为GA4GH Connect五年战略计划的一部分开发的,分别是Crypt4GH、变体表示、Phenopackets、工具注册服务API和数据安全基础设施策略。他们解决了数据安全、云计算、表型和变异数据交换以及个人数据使用的伦理影响方面的问题。
GA4GH首席执行官Peter Goodhand在一份声明中表示:“新批准的标准和更新是我们在GA4GH Connect下工作的一个重要里程碑,我们预计未来几个月将批准更多标准。”“我们还启动了GA4GH连接路线图的更新,加快了我们实现基因组数据工具和资源的联合、可互操作网络的目标。”
的工具注册服务(TRS) API,现在是它的第二次迭代,支持工具和工作流程的交换,用于分析,读取和操作基因组数据。它是来自GA4GH云工作流的一系列技术标准之一,帮助基因组学研究人员将分析算法转移到不同云环境中的数据集,而不是移动数据。
TRS API和ELIXIR能力中心技术和科学集成项目经理的产品负责人之一Susheel Varma在接受采访时告诉GenomeWeb,注册表和API旨在提供一种服务,允许来自不同组学领域的生物信息学家社区以标vwin德赢ac米兰合作准化的方式从不同的云提供商存储和检索工具。
目前,大多数基因组学工具和工作流都是为在特定环境中使用而开发的,并存储在与这些环境相关的注册表中。由于每个注册中心都要求其存储的工具和工作流在硬件等方面满足独特的标准,因此一个注册中心中的工具在其他环境中可能无法工作。这种平台互操作性的缺乏可能会使复制研究的过程复杂化,这些研究使用的工具是针对特定环境开发的。
“这是浪费时间和资源,”加州大学圣克鲁斯分校计算遗传学项目主任、GA4GH云工作流程的联合负责人布莱恩·奥康纳在一份声明中说。“开发人员正在构建同一工具的多个版本,以适应他们希望运行的每个注册表的标准。”
TRS API通过支持生物信息学工具的交换和使用Docker等容器化技术打包的相关依赖关系来解决这些问题,使这些工具能够在不同的云平台上移动和使用。具体来说,它提供了标准机制,让研究人员可以跨多个注册中心列出、搜索和注册工具。它还支持使用公共工作流语言(CWL)、工作流描述语言和Nextflow等标准的工具和工作流。TRS API还可以充当工具注册中心之间的桥梁。拥有不同工具集和已经实现TRS的工作流的多个注册中心可以彼此共享信息,使研究人员能够访问在他们自己的平台上可能无法使用的工具。
Varma在采访中表示:“对于工具提供商来说,它为您提供了一种围绕特定工具策划和开发社区的机制。“对于用户来说,它为他们提供了一个可以使用的工具的特定版本的规范参考,这也使他们的生物信息学工作流程具有可重复性。”
Varma指出,TRS补充了现有的资源,如银河和克伦威尔,使研究人员能够将来自这些不同平台的工具组合在一起,并在他们选择的任何环境中运行它们。开发人员还可以使用TRS注册他们的工具,以便这些工具可以在多个平台上可见。此外,TRS API可以与GA4GH云工作流组开发的其他API一起使用,例如工作流执行服务。
根据其开发者的说法,两个工作流共享平台——Dockstore和Biocontainers——已经实现了TRS API的第二个版本。ELIXIR的版本——在生物容器上——包含8000多个工具,存储在68,000多个容器中。到目前为止,这些工具已经被打包到610个工作流中。
国际癌症基因组联盟的研究人员也在使用这一标准加速基因组肿瘤学项目的研究以及国家心肺血液研究所的精准医学跨组学项目。Varma说:“看到规范的发展,真是令人难以置信。”“它让社区认为,这是一个可持续的标准,他们可以使用并在这些标准的基础上进行建设。”
变体表示(VR)规范为交换遗传变异数据提供了计算模型、模式和算法的灵活框架。该规范是在GA4GH基因组知识标准工作流程的支持下创建的,是在国家信息资源提供者、主要公共举措和诊断测试实验室的投入下制定的。
基因组知识标准工作流程的联合负责人、梅奥诊所生物医学信息学助理教授Robert Freimuth在一份声明中说,该规范“是朝着填补研究、转化和临床社区使用的交换机制之间的空白迈出的一步,这对基因组和精准医学的实施是必要的。”
在发给GenomeWeb的电子邮件评论中,Freimuth指出,有效利用基因组数据进行研究或临床实践的挑战之一是“难以以计算上明确的方式在系统之间交换测试结果”。此外,“解决这个问题的需求随着每一个新的数据集和知识库而增长,”他说。“GA4GH VR规范为这一挑战提供了可扩展的解决方案。”
VR规范产品负责人、Broad Institute高级首席软件工程师Larry Babb在一份声明中指出,“该规范将允许不同的社区‘说同一种语言’,无论是正在收集样本的诊断实验室和电子病历供应商,还是正在访问样本的调查人员。”
该规范的特点包括可扩展的术语和信息模型,为生物学概念(如等位基因、序列、变异和基因型)提供标准的计算数据结构。它包括一个机器可读的模式,用于构建用于电子交换的遗传变异数据,规范数据以允许用户比较和解释在不同机构收集的数据集,以及用于变异的唯一计算标识符。
软件工程顾问兼VR规范的主要作者Reece Hart在接受采访时表示,该规范解决了识别和共享序列变化时的一些模糊来源。他举了一个例子来解释:如果在一个5t序列中添加了一个额外的T,目前的标准如HGVS和VCF可能会把这个添加归类为插入或复制。此外,根据所使用的标准,添加的T可以放在序列的一端或另一端。
为了解决这些问题,VR规范结合了来自NCBI的SPDI项目的想法,该项目调整序列位置以解释插入或删除引起的任何歧义。哈特解释说:“所以,我们会说5t被6t取代。”“这样写的价值在于,你代表了模棱两可的整个界限”,“你不选择一个单一的代表。”
此外,该规范还提供了一种识别序列的机制,该机制通过创建基因组序列的摘要来工作,并使用这些作为标识符而不是序列名称。由于摘要基于序列本身,因此无论序列实际命名为什么,它都是一致的。
开发人员期望该规范将简化查找和交换不同信息的任务。Hart说,与其使用多种命名模式和格式,“我们建议使用一种通用语言来表示系统之间的差异,然后根据数据本身计算出一个键,这样每个人都可以使用完全相同的键。”
他指出,VR规范并不打算取代HGVS或VCF等标准。他说:“我们的目标是改变计算机谈论变异的方式,因为我们认为我们可以以一种将模糊性最小化的方式做到这一点。”
该研究院的Babb在接受GenomeWeb采访时表示,在临床领域,电子健康记录的开发人员正在研究如何捕捉患者记录中的遗传变异,以支持精准医疗,这一标准将是一个福音。许多供应商已经开始使用HL7等机构的模型将序列信息合并到他们的系统中。他说:“这里的挑战是,如果有人走在我们前面,开始零星地开发这些系统,他们将花费大量工程资金和资源,并拥有大量不一定像他们希望的那样有用的数据。”随着该团队继续开发规范,他们打算与供应商和现有的临床标准机构合作,以使规范得到更广泛的采用。
Freimuth在评论中指出,GA4GH驱动程序项目,如ClinGen等位基因注册和癌症协会变异解释(VICC)它们对虚拟现实规范的成功开发至关重要,而且它们的实施“可以促进其进一步采用”。另一个GA4GH驱动项目,BRCA交易所,也实施了该标准。
据华盛顿大学圣路易斯医学院的讲师和VICC的联合主任Alex Wagner说,该规范使查找存储在不同储存库中的变体和整合来自这些资源的知识变得更容易。瓦格纳在接受采访时表示:“尽管我们对这些事情的思考方式存在差异,但如果我们谈论的是同一种变体,我们现在就有了相同的名称。”瓦格纳也是VR开发的联合负责人。“我不需要知道ClinGen是怎么称呼它的,我只需要知道这个变体是什么样子的,我就可以计算出这个ID,然后询问是否有人并行计算过这个ID。”Babb是ClinGen团队的成员,他补充说,等位基因注册表有一种机制,供研究人员将规范应用于他们的变体,并且这些变体可以是HGVS或VCF格式。
开发人员已经开始计划VR规范的未来迭代。哈特说:“这种模式是专门为提供扩张机会而设计的。”“现在,我们代表了最简单但也是最普遍的一种变异,”但他们计划扩展模式,以描述更复杂的变异,如复制数变异。“除此之外,还有其他类型的结构变异,特别是融合或易位,单倍型和基因型,”他说。
就其本身而言,Crypt4GH是一种标准的文件容器格式,旨在帮助研究人员安全地共享敏感的基因组数据,并在共享后保持其安全。据开发人员称,目前共享数据的方法使用加密技术,在传输过程中保护数据,但不能保证传输完成后的安全。
EMBL欧洲生物信息学研究所的Crypt4GH产品负责人、科学程序员亚历山大·森夫在一份声明中指出:“如果接收者的硬盘被黑客入侵或他们的电脑被盗,敏感的患者信息可能会落入坏人之手。”
Crypt4GH通过使用双重加密系统来保护数据来解决这个问题——数据和解锁机制都是加密的。要访问数据,研究人员需要两个密钥:一个用于验证身份的私钥,另一个用于加密传输的数据。
“该方案本质上是一个信封加密,”森夫在一次采访中解释道。具体来说,“大量数据以对称加密方式加密,然后我们[使用]一种特定的算法,允许我们保持对数据的字节级访问,”他说。“信封本身使用非对称加密方案进行加密。”
根据Senf的说法,Crypt4GH适用于基因组数据和现象数据,并适用于不同的文件格式,包括BAM、CRAM和VCF文件。他说:“它允许我们以一种仅限于特定人群访问的方式加密数据,但与此同时,它也可以包含在分析软件用于读取数据的库中。”此外,加密模式允许“以流方式访问数据,因此我们不必总是拥有可用的整个文件来使用它。这使得我们可以处理任何大小的数据,因此没有实际限制。”
Crypt4GH已由欧洲基因组-表型组档案、澳大利亚基因组健康联盟和威康桑格研究所的研究人员实施。
今年GA4GH全会发布的其他标准包括Phenopackets,为罕见病和常见病以及癌症的诊断和治疗提供了共享疾病和表型信息的标准。该集团还宣布发布数据保安基础设施政策,为保护共享基因组和临床数据的隐私和安全提供标准和实施实践。