加州大学圣克鲁兹分校,正在建立一个pb级的数据存储库,该数据库将提供由国家癌症研究所癌症基因组研究项目领导的几个项目产生的基因组和临床数据。
资源,称为癌症基因组学中心CGHub目前是测试版。它将由大卫·豪斯勒(David Haussler)领导的团队负责维护。豪斯勒是UCSC的生物分子工程学教授,他还负责监督UCSC基因组浏览器和癌症基因组浏览器,DNA元素百科全书项目的数据收集中心,以及其他一些大规模的生物信息学资源。
该项目由NCI通过与弗雷德里克国家癌症研究实验室的主承包商上汽弗雷德里克公司的1030万美元分包合同提供资金。
豪斯勒说,这些资金将支持该数据库的开发和运营到2014年BioInform.
CGHub最初设计为容纳5pb的数据,并允许根据需要进行额外增长。UCSC的研究人员还在探索新的数据压缩方法,以减少所需的存储空间。
该资源位于圣地亚哥超级计算机中心,并通过高性能的国家研究网络连接到包括UCSC在内的参与这些项目的全国主要中心。
Haussler的团队为存储库设计了存储和计算基础设施,它有一个自动查询和下载接口,可用于大规模、高速使用。它最终还将包括一个基于web的交互式界面,允许研究人员浏览和查询系统,并下载自定义数据集。
豪斯勒在一份声明中指出,为研究人员提供“许多主要类型和亚型癌症关键基因组变化的全面目录”,将有助于开发更有效的诊断和治疗癌症的方法。
CGHub将保存三个主要NCI癌症基因组测序项目的数据:癌症基因组图谱;“产生有效治疗的治疗应用研究”(TARGET)项目;以及癌症基因组表征计划。
TCGA是由美国国家癌症研究所(NCI)和国家人类基因组研究所(National Human Genome Research Institute)领导的一项合作努力,旨在绘制至少20种主要成人癌症类型和亚型的基因组变化。TARGET是一项相关工作,重点关注五种最常见的儿童癌症,CGCI提供艾滋病毒相关癌症和某些淋巴细胞和儿童癌症的基因组数据。
豪斯勒说,这些项目产生的测序数据的规模“远远超过了以前医学研究面临的任何问题”。目前,TCGA每个月产生大约10tb的数据,其输出预计在未来两年内将增加10倍或更多。
此外,Haussler说,在未来的四年里,如果该项目从超过10,000名患者中每个人产生1tb的DNA和RNA数据,它将产生10pb的数据,并指出,10,000例仅是美国每年诊断出的150万例新癌症病例的一小部分。
Haussler说,该数据库目前拥有大约10,000个包含TCGA序列信息的文件。
Haussler说,该数据库包括一个名为Gene Torrent的开源软件包,它将允许研究人员在中心和他们的家乡机构之间来回移动数据。
例如,它还包括脚本,使用户能够搜索来自特定机构的特定癌症样本的文件;他说,还可以自动向用户传输符合特定搜索条件的新文件。
CGHub还提供了一个应用程序编程接口,允许分析管道与数据库交互并检索CGHub文件索引;根据癌症类型、序列类型、源测序中心或日期范围等元数据属性选择下载文件;然后启动下载;最后确认成功。
CGHub将部分依赖于Annai Systems开发的基因组网络操作系统Annai- gnos,该系统将实现数据库基因组数据的传输和管理。
该公司表示,Annai的系统包括管理序列数据和元数据的三个级别的保护:用户身份验证,数据访问授权,以及使用对称密钥加密的传输控制协议和互联网协议会话上的安全数据传输。
据该公司称,Annai-GNOS系统能够同时传输数百个大数据文件(几百千兆字节大小),速度可达数千兆比特/秒,仅受客户端和网络环境的输入/输出速率限制。
“更灵活的系统”
豪斯勒说,在启动CGHub之前,NCI基因组项目的数据由国家生物技术信息中心保存vwin德赢ac米兰合作BioInform.
他解释说,NCI决定为癌症基因组学数据推出一个单独的资源,部分原因是希望“有一个更灵活的系统,在这个系统中,我们可以对靠近数据的多个分析管道进行实验,并以不同的方式分发数据”。
他说,CGHub开发团队正在采用的一种方法是鼓励研究人员在数据库附近“共同定位”他们自己的计算基础设施,这应该会使访问数据更容易,而不是试图在机构之间物理传输大型数据集。
到目前为止,CGHub有一个来自加州大学伯克利分校的机器机架,位于数据库附近,豪斯勒预计会有更多的团队效仿。他说,这最终将创建“一个围绕中央数据库构建的分析平台社区”。
CGHub的开发人员建议,对于不喜欢将设备放在同一位置的团队,他们可以与云计算提供商合作,以获得数据集所需的足够计算和存储空间。
CGHub团队还在探索新的数据压缩方案,预计将减少存储数据所需的总存储空间,Haussler表示,考虑到所涉及的数据集的大小,这是“极其重要的”。
他说:“我们希望将数据压缩到当前大小的十分之一,这在不丢失一些信息的情况下是不可能实现的。BioInform.目前,癌症基因组学社区正在“非常努力地工作,以确定我们可以在这些非常有价值的数据中牺牲哪些信息。”
他说,该小组正在探索两种压缩方法;由欧洲生物信息学研究所的研究人员开发的一种叫做补习第二个是由NCBI设计的。