芝加哥(基因组网)-为了履行为任何有需要的病人提供免费护理的使命,田纳西州孟菲斯的圣犹大儿童研究医院向全球研究界提供了一整套关于儿童癌症的基因组数据。
这个名为St. Jude Cloud的公共存储库包含了来自年轻癌症患者的5000个匿名全基因组序列、5000个全外显子组序列和1200个RNA序列。该计划计划到明年拥有10000个全基因组序列,并通过邀请外部研究人员分享他们自己的数据来鼓励进一步增长。
DNAnexus的首席执行官理查德•戴利表示:“这一切都是为了建立一个社区,以产生更大的研究,而圣犹大将成为这个全球研究项目的基础锚。”DNAnexus与微软一起提供圣犹大云背后的技术。vwin德赢ac米兰合作
戴利补充说:“这似乎是一件无需动脑的事,但很难找到愿意以这种方式免费提供数据的人,这是因为他们的使命和融资方式。”“如今生物信息学的最大问题是,人们在保护、管理和封存他们的数据,而圣犹大却走了完全相反的方向。”
微软作为St. Jude cloud的云主机,而DNAnexus是该平台的前端,其中包括免费的分析、可视化和协作工具。
圣犹大云周日在芝加哥举行的美国癌症研究协会年会上正式启动。
孟菲斯医院计算生物学主任Jinghui Zhang说,有两组预期的最终用户:基因组癌症研究人员——是否接受过信息学培训——以及希望用圣犹大数据集测试新算法的计算科学家。
“这些计算科学家可以将他们的工具带到云端,并使用我们的数据集进行测试,或提高性能,或通过使用他们的新工具进行发现,”张说。“新奇的发现也适用于没有计算背景的研究科学家。”
这也有助于研究人员应对众所周知的全球生物信息学专业人员短缺问题。
圣犹大云允许用户设置隐私的、密码保护的研究区域,在那里他们可以上传自己的数据,以便在平台上处理。
“他们可以有自己的私人项目,他们可以在其中放入任何他们喜欢的东西,并在他们的数据上运行我们的工具,”圣犹大大学临床生物信息学分析小组负责人斯科特·纽曼(Scott Newman)说。“他们可以访问我们的数据,并与他们的数据一起进行分析。”
目前在St. Jude Cloud上可用的工具包括快速RNA-seq、PeCan PIE(儿童癌症变异致病性信息交换)、新表位预测测试和ProteinPaint这是一种可视化体细胞突变的工具。
该平台还包括DNAnexus技术的标准套件。位于加州山景城的DNAnexus拥有为研究社区搭建平台的经验,包括PrecisionFDA而且马赛克;后者是杨森人类微生物组研究所赞助的微生物组数据分析平台。
圣犹大云起源于2010年圣犹大华盛顿大学的成立儿童癌症基因组计划.(当时是华盛顿大学基因组测序中心(Washington University’s Genome Sequencing Center)联席主任的伊莱恩·马尔迪斯(Elaine Mardis),如今是DNAnexus科学顾问委员会的成员。)
美国国立卫生研究院院长弗朗西斯·柯林斯当时说:“这将是我们所能想到的了解儿童癌症方面最重要的一组数据。”
这个为期三年的项目收集了700对匹配的肿瘤/正常对以及来自23种不同类型的儿童癌症的2000个外显子的全基因组测序数据。张说,这导致了20多篇发表的、同行评议的文章,圣犹大将每个数据集都公开了。
2014年,圣犹大开始开发一个临床测序管道,包括全基因组测序,外显子组测序和每一个新儿科癌症患者的转录组测序。云数据集还包括基因组对孩子项目和圣犹大终身队列研究。
张说,到目前为止,全球约有300个实验室要求从儿童癌症基因组计划下载。“但下载数据是一种非常痛苦的经历,”她说。
纽曼描述了他在上一份工作中,研究高级胶质瘤时,花了9个月时间从圣犹大下载了大约100个全基因组序列。圣犹大给了他一个通证,但没有技术指导。
“数据集很大,连接很慢,而且,出于我不完全理解的原因,下载总是失败,所以我不得不一次又一次地重启,”他说。
“这种经历并不少见,”张说。通常看起来下载正常,但有些BAM文件缺少数据。
圣犹大云承诺消除这一痛点,并通过将计算过程迁移到云来加速研究过程。
“我们试图避免下载。如果你能把你的工具放到云端,你就不需要花这么多精力去下载数据了。”“你可以专注于完成分析。”
随着圣犹大云的公开发布,创作者正在寻求扩展其功能。
在未来,张磊希望云技术能够让研究人员将自己的数据与圣犹大的数据进行整合,从而实现可视化。“现在,你必须另辟蹊径才能做到这一点,但我们希望在云端实现无缝对接。这将是我们的最终目标。”
张说,用户也可以公开他们自己的基因组数据,但圣犹大和它的技术合作伙伴仍然需要整理访问控制机制。vwin德赢ac米兰合作
其他计划则要求将临床记录与基因组序列结合起来。张说:“我们希望这个门户网站最终能成为我们上传临床数据和临床测序数据的地方……并与社区的其他成员分享。”
机器学习和人工智能也在研究中。
DNAnexus首席执行官戴利表示:“下一阶段出现在圣犹大云上的工具很可能是机器学习——深度学习。”尽管DNAnexus目前正在进行试点测试谷歌的DeepVariant的集成变种调用工具加入到其核心基因组信息平台中,这将是微软将其机器学习技术带到了圣犹大计划的桌面。vwin德赢ac米兰合作
在接下来的阶段,可能会有类似于fda precisionproject的研究挑战,Daly说,尽管他还没有准备好提供细节。