芝加哥——最近发布的Amazon Genomics CLI是一款开源软件工具,用于管理和处理亚马逊网络服务云上的大规模基因组数据,这是该互联网巨头此前声明的目标的一部分为基因组学和生命科学领域的客户减轻计算上的“重担”.
AWS全球医疗保健和生命科学技术负责人Pat Combes将Amazon Genomics CLI描述为AWS的另一个“坡道”,用于那些希望快速建立或发展大规模测序项目,但没有内部生物信息学基础设施或专业知识的人。
CLI代表命令行界面这是计算机编程中的一个常用术语,用来描述用户和操作系统之间的文本接口。
AWS在7月份宣布了CLI的预览版,并于9月27日向开源社区发布了它。
Amazon Genomics CLI专门用于改进广泛流行的生物信息学软件与AWS服务的集成,包括Amazon弹性容器服务(EC2)、Amazon弹性计算云、Amazon DynamoDB和Amazon简单存储服务。从概念上讲,Combes将Genomics CLI比作AWS ParallelCluster,后者是一个用于管理亚马逊云上高性能计算集群的开源应用程序。
Combes说:“你正在使用它来驱动AWS上大量资源的创建,或者在EC2存储分配等方面所需的任何资源。”“然后你把你的工作流程引入其中……它就会运行起来。”
康姆斯说,Genomics CLI让用户带来了流行的工具等Nextflow工作流管理系统到AWS云上,而不需要深入的信息学基础设施。
CLI是免费的,但是用户需要为他们可能需要的其他AWS资源付费。康姆斯说,这与其说是亏本销售,不如说是用户改善管理和消费其他产品的一种方式。
虽然有其他AWS资源和产品似乎在各行各业都能很好地工作,但根据Combes的说法,该公司发现有必要开发Genomics CLI,因为它可以支持pb级的数据处理。
库姆斯说:“我们真的希望它能帮助我们的客户比以前走得更远,并帮助他们建立他们需要运行的大规模项目。”
他还表示,生命科学领域的客户倾向于分为两大阵营。
“我们有很多客户在AWS上建立了重要的、相当大规模的基因组测序项目,并取得了成功。我们有很多客户在刚开始使用时遇到了麻烦。”
加州大学圣克鲁斯分校基因组学研究所是最早的采用者。加州大学圣克鲁斯分校不是一个小机构,它有一个完善的基因组学项目,但这是康姆斯想要服务的实体类型,因为大学有很多数据,但需要帮助发现和运行基因组学工作流程。
“为了让他们成功地执行(他们的基因组计划),他们需要利用我们提供的大量容易获取和可扩展的资源,”Combes说。
库姆斯说:“他们很清楚自己想做什么,但不知道如何在不消耗太多资源的情况下有效地开始。”这样的用户通常不知道如何很好地管理他们的基因组计算需求,最终得到他所说的“真正不一致的体验”。
Combes补充道:“CLI的真正目的是为这种方法带来某种统一性、一致性和治理。”
为基因组学构建计算平台的加州大学圣克鲁斯基因组学研究所(UC-Santa Cruz Genomics Institute)的大部分工作流程都在AWS上运行。
UCSC基因组学研究所领导开发了Dockstore,这是一个开放平台,允许生物信息学研究人员共享基于docker的基因组学工作流程。它是由美国国立卫生研究院资助的,因此它必须遵循FAIR的原则,即可查找、可访问、可互操作和可重用。
加州大学圣克鲁斯基因组学研究所计算基因组学平台主任Timothy Harris说,他的组织已经与AWS就将Dockstore与CLI集成进行了大约9个月的讨论。通过任何CLI,“你可以使用Dockstore找到任何生物信息学工程师已经放入存储库的现有工作流,然后直接在CLI上执行它们,”他解释道。
哈里斯说,亚马逊基因组学CLI特别便于像他所在的研究所这样的组织管理全球基因组学与健康联盟(GA4GH)。工作流执行服务.他说:“因为我们对建立生物信息学工作流程的存储库很感兴趣,我们需要执行它们的方法,而(CLI)允许我们从一个非常轻量级的角度来做这件事。”
Harris指出,每当用户访问云空间时,他们都会为计算资源付费,因此AWSn模型并不是唯一的。根据与NIH达成的一系列协议,AWS存储了公共基因组数据集的副本,供研究人员免费使用。他们只是为运行分析的计算资源付费。
“我们的目标通常是提供计算平台,可以加速全球生物信息学研究或基因组学研究,”哈里斯说。“我们在内部使用(CLI),因为它真的很容易旋转和访问。”
UCSC基因组学研究所与微生物学家和计算机科学家都有合作,而双方往往都缺乏对方所拥有的技能。
哈里斯说:“对我们来说,使用CLI是一种自然的过程,我们已经做了大部分的工作,所以我们发现有一些(像亚马逊的CLI)非常容易旋转和访问的东西真的很有用。”“我们欣赏基于cli方法的轻量级特性。”
除了整合Dockstore之外,Harris和他的团队还没有决定Amazon Genomics CLI的未来用途。
“我们还在适应这个平台,并在内部使用它,”他说。“但这只是我们与亚马逊合作的开始,我们希望能继续合作下去。”
Combes说,他设想CLI为客户提供更多的资源,以在EC2中使用,例如将AWS扩展到GA4GH的全部范围工作流执行服务应用程序编程接口。
Combes表示,CLI完全实现了工作流执行服务,并将通过提供AWS自身使用API的经验反馈,帮助GA4GH改进标准。
康姆斯说,CLI还旨在帮助基因组学用户管理AWS的其他成本。例如,该服务可能会促使客户到AWS现货市场购买EC2,在那里,用户“可以以非常低的成本获得高性能的资源进行集装箱化,”他解释道。
库姆斯补充说:“所有这些都是为了帮助他们组织工作量,使他们能够以尽可能低的成本利用最广泛的资源。”