自去年全面投入运营以来,Regeneron Genetics Center (Regeneron Pharmaceuticals的全资子公司)已经对3万多个外显子体进行了测序,并开始了大规模的靶向测序研究,所有这些都是为了寻找新的药物靶点和现有产品和候选药物的药物基因组标记。
2014年初,位于纽约州塔利敦的Regeneron公司宣布启动人类遗传学计划帮助指导新疗法的发现和发展,并建立了自己的基因组中心——研资局。
在与许多合作者的合作中,特别是宾夕法尼亚州的盖辛格卫生系统,Regeneron计划对来自患者志愿者的去识别样本进行测序,并寻找他们的基因型和表型(包括疾病)之间的联系。
除了与Geisinger的合作(涉及超过10万名不同表型和疾病的患者),研资局还建立了伙伴关系,进行更集中的以家庭为基础的研究。Regeneron计划与哥伦比亚大学医学中心合作,研究遗传性心脏代谢疾病、癌症易感性和罕见遗传疾病等家族疾病。
与此同时,与特殊儿童诊所(Clinic for Special Children)合作,重点关注阿米什人和门诺特人的家庭儿科疾病;并与贝勒医学院合作,重点研究贝勒孟德尔基因组学中心发现的疾病基因的功能。此外,Regeneron还与国家人类基因组研究所的未确诊疾病项目和多伦多病童医院的SickKids基金会合作。
以Geisinger队列为代表的基于人群的抽样和在特定临床领域更集中的基于家庭的研究的双重方法是“高度互补的,非常适合我们,”RGC的执行主任Aris Baras告诉GenomeWeb。
此外,该公司一直在对其正在进行的临床试验项目中有限数量的样本进行测序,目的是确定药物基因组学标记。
在最初宣布的一年后,研资局已经为超过30,000个样本生成了外显子组序列数据——其中大部分来自Geisinger——并且每周生成超过1,200个外显子组,并计划在本月晚些时候增加到每周1,400个外显子组。仅在2014年,该中心就测序了超过2万个外显子体。
展望未来,该中心还计划开展一些有针对性的测序项目,在短时间内对数万个个体的数百个基因进行测序。“一般来说,我们认为靶向测序是一个很好的工具先天的关于涉及各种疾病过程的特定基因集的假设,”巴拉斯说。“(它)让我们能够非常快速地大规模地询问一些具体问题。”
研资局正进行多个研究项目,以测试某一特定基因或途径是否与疾病有关。这将涉及在三个月左右的时间内测序2万个,甚至可能多达5万个样本。Baras说:“如果我们等待外显子组序列数据的积累,可能需要一年或几年的时间,重要的是,它可能会把我们的工作流程从许多其他项目中转移出去。”
GenomeWeb最近访问了研资局,并与研资局的管理团队进行了交谈(另见问答)在这里).该中心目前占据了两层翻新后的空间,位于位于纽约市以北约25英里的塔利镇(Tarrytown)外的Regeneron庞大校园内的一栋原建筑内。测序生产于去年7月开始,样品制备自动化于9月完成。今年秋天,该中心计划搬到街对面一座正在建设的新建筑中,并将提供更多的空间。
研资局目前有40多名员工,分别从事测序业务和生物信息学,预计到今年年底将增至55至60人。从耶鲁大学基因组分析中心来到Regeneron的约翰·奥弗顿(John Overton)负责测序和实验室操作,而从贝勒大学人类基因组测序中心加入公司的杰弗里·里德(Jeffrey Reid)负责基因组信息。
为了在测序之前存储DNA样本,该中心从Liconic Instruments公司建立了一个生物样本库,这是美国首个此类生物样本库,其存储容量为140万份冷冻样本,目前存放了4万多份。DNA样本被送到装有96个试管的架子上,每个试管底部都有一个二维条形码,可以自动扫描,将样本记录到该中心的实验室信息管理系统中。在此之后,一个机械臂将有自己条形码的架子转移到冰柜内,在那里可以根据需要自动提取样品。
研资局现时备有10台Illumina HiSeq 2500测序仪,每年可连续运作超过60,000个外显子体,以及一台Pacific Biosciences PacBio RS II,用于分析人类基因组中难以测序的区域。
奥弗顿说,到目前为止,该中心所做的大部分工作都是外显子组测序,尽管它也“涉足其他一些事情”,如RNA-seq、全基因组测序和靶向测序,并且正在为即将到来的靶向测序项目做准备。
在Regeneron自动化核心团队的协助下,研资局与Hamilton Robotics合作,在几个定制的Hamilton机器人上完全自动化了库的准备和外显子组的获取过程。
奥弗顿解释说,该系统每年能够处理数十万个样品,这确保了样品制备永远不会成为瓶颈,测序仪可以不间断地运行。像许多其他高通量测序中心一样,Regeneron有自己的Illumina工程师在现场保持测序仪的运行。
除了节省人力,自动化的样品准备也导致数据比手工制备的样品或小批量制备的样品数据更均匀,Reid说这使得分析更容易。
剪切的DNA被加载到其中一个机器人上,根据内部开发的协议和使用Regeneron自己的试剂包执行所有文库构建步骤。对于接下来的外显子组捕获,团队使用NimbleGen SeqCap EZ HGSC VCRome试剂盒,该试剂盒最初由贝勒科学家为临床研究设计。
奥弗顿说,他们的目标是对85%的碱基进行20X的测序,但实验室通常至少对90%的碱基实现了这一目标。
在计划中的定向测序项目中,该中心将使用一种未公开的目标浓缩方法,该方法是与第三方共同开发的。该项目将涉及针对特定疾病领域的数百个特定基因的小组。
在数据储存和分析方面,研资局选择了一个完全基于云端的系统,这在其他大规模基因组中心中显得有些独特。“我喜欢称它为云中的第一个基因组中心,”里德说。由于该中心是从零开始建造的,因此没有现成的高性能计算硬件。里德说,建立一个新的数据中心似乎成本过高,所以基于云的信息学是正确的选择。
在基建方面,研资局使用亚马逊网络服务。DNAnexus是该中心的平台合作伙伴,在AWS提供的基础上提供额外的安全性,并提供信息学工具来构建工作流。里德说,DNAnexus的平台还可促进分析步骤的自动化,并允许研资局通过创建数据区以安全的方式与其合作者共享数据。
来自Illumina机器的原始测序数据首先被传输到中心的一个“非常小”的存储缓冲区,然后通过Regeneron和AWS East之间的直接连接自动推送到云端。
上传触发了一系列自动化的管道步骤,使用标准生物信息学工具进行主要和次要数据分析,从而为每个样本生成带有注释的变体文件。
来自数据分析的文件与研资局内部的LIMS集成在一起,这是Sapio Sciences定制的Exemplar LIMS,可以跟踪每个样本的过程,包括许多质量控制步骤。
为了找到基因型和表型之间的联系,Regeneron团队转向了患者的临床数据。就盖辛格合作而言,它可以以每月更新的数据库形式获得参与者完全去身份的电子健康记录。Regeneron的研究人员也一直在与盖辛格的临床信息学团队密切合作进行分析。
这些数据是结构化的,并且是可搜索的格式,因此研究人员可以查看,例如,是否有服用阿司匹林的患者,或过去5年内身体质量指数超过30的患者。里德说:“你可以问这些问题,看看有多少病人有这些参数,看看这些人的健康、生命体征和人口统计数据,然后把这些数据搜索与基因组数据结合起来。”
“这是一个非常丰富的数据库,有与健康和疾病相关的表型,因为它是实际的电子健康记录,而不是大多数其他组织正在使用的研究表型数据库,”RGC翻译遗传学副总裁艾伦·舒尔迪纳(Alan Shuldiner)说。该数据库还包含纵向数据,以及关于患者用药史的信息,这对各种表型很重要。“他们中的许多人有多种表型,比如高血压、糖尿病和心血管疾病。人们可以开始深入研究这些疾病之间的生物学基础,我认为这是一个非常独特的机会,”他说。
Baras说,为了确定基因型和表型之间的联系,科学家们在很大程度上采用了“相当标准的统计分析”。一种类型的分析是“表型优先”方法,在这种方法中,他们定义了一种可能在特定疾病领域具有治疗潜力的表型,例如心血管疾病的极端血脂。另一个例子是对肥胖患者的研究,以确定哪些人似乎不受典型合并症的影响。Baras说:“当你有数百万病人时,你可以想象问数百个这类问题。”“你确定一个群体,然后进行标准的统计分析,以确定他们是否富集了某些保护他们或导致疾病的基因。”
另一种方法是从基因型和假设开始,例如,基因X参与导致或保护Y疾病。“我们现在可以利用这个数据集,识别出该基因中有重要突变的个体,例如功能丧失突变,我们可以问自己,‘表型后果是什么?’”巴拉斯说。
到目前为止,该中心还没有报告其合作的任何结果,但初步的发现目前正在得到确认和重复,“现在有一些努力”将其撰写出来发表和展示。Baras说:“我们大多数合作的结构都是为了发表和传播结果和发现。”他以协议的保密性为由,拒绝就合作所产生的知识产权所有权发表评论。
Regeneron不会向患者报告结果——它的测序设备不是临床实验室——但至少包括Geisinger在内的一些合作者正计划验证并返回某些结果。