纽约(基因组网)-美国国立卫生研究院今天宣布,它已在2017财年拨款900万美元,资助12个项目,启动一个基于云的平台,用于存储、共享、访问和计算生物医学数据和其他数字对象,如分析工具的初步阶段。
该项目被称为NIH数据共享试点阶段,是该机构“大数据到知识”(BD2K)计划的一部分,旨在为研究人员提供可查找、可访问、可互操作和可重用(FAIR)的生物医学研究数据。今年早些时候,美国国立卫生研究院宣布它正在为为期四年的试点阶段寻找参与者,该阶段将涉及三个高价值数据集,作为BD2K项目需要开发的原则、政策、过程和体系结构的测试用例。
NIH现在已经从工业界和学术界挑选了九组合作者,组成NIH数据共享试点阶段联盟,并开始开发计划中的数据共享所需的能力,包括使数据透明和可互操作,保护患者数据,并让社区接受数据标准。
根据NIH的说法,资金接受者包括马里兰大学和牛津大学电子研究中心,它们正在合作创建NIH数据共享促进中心;一个由伊坎医学院领导的小组,为制定和实施社区支持的FAIR指导方针和指标制定计划;哈佛医学院(Harvard Medical School)正在公平原则下建立以患者为中心的信息共享平台;芝加哥大学(University of chicago)领导的团队正在构建一个持续公平的平台;加州大学戴维斯分校(University of California, Davis)和curroverse Innovations合作开发在许多云上挖掘基因组数据的工具和工作流程;以及由加州大学圣地亚哥分校领导的合作者,他们正在构建一个云不可知的架构,用于定位索引FAIR对象,并在新的集成分析中安全地重用它们。
加州大学圣克鲁兹分校与布罗德研究所和芝加哥大学合作建立了一个平台,可以处理包括基因组学、转录组学和图像数据在内的异构混合数据类型,以及相关的元数据。根据UCSC的一份新闻稿,他们的伙伴关系——被称为“共同联盟”——正计划建立一个平台设计用于处理数据类型的异构混合,包括基因组学、转录组学和图像数据以及相关的元数据。他们的最终目标是构建一套通用的软件模块,用于创建互操作系统,这些系统都可以驻留在一个基于云的通用研究环境中。
Seven Bridges Genomics今天还宣布,它将领导一个数据共享试点小组,与Repositive、Elsevier和the波士顿退伍军人事务研究所的一个名为fair4cure的项目构建一个完整的堆栈解决方案,将来自各种研究环境的数据统一到一个单一的生态系统中。该集团将创建可互操作的api,将来自癌症基因组学云和Gabriella Miller儿童优先数据中心的生物医学数据连接到其他NIH数据集,如精确医学跨组学、基因型-组织表达和模型生物数据库数据集,并将有助于访问来自Repositive平台、Elsevier的Mendeley数据中心和VA的GenHub生态系统的其他数据。
杰克逊实验室是一个更大的机构团体的一部分,它参与了一个名为“NIH数据共享合作”的项目,今天宣布它的特别贡献将包括专门针对心肌病的软件。这个新的在线疾病导航系统将使研究心血管疾病的研究人员能够通过访问与人类数据交叉引用的动物模型的相关基因组和其他数据来快速跟踪他们的研究。疾病导航系统将与模型生物数据库联合开发基因组资源联盟,杰克逊实验室说。
此外,NIH还向作为测试案例使用的三个数据集的管理人员——布罗德研究所、斯坦福大学以及密歇根大学和华盛顿大学的合作者——提供了补充拨款,以促进他们参与试点项目。
美国国家心肺和血液研究所还为北卡罗来纳大学教堂山分校、七桥大学、哈佛大学和加州大学圣克鲁斯分校领导的项目提供了额外的资金。
NIH主任弗朗西斯·柯林斯在一份声明中说:“从生物医学数据中获取丰富的信息将促进我们对人类健康和疾病的了解。”“然而,数据可获得性差是将数据转化为理解的主要障碍。NIH数据共享试点阶段是消除这一障碍的重要努力。”