纽约(基因组网)-英国生物银行正在监督最初5万个样本队列的全基因组测序,这一过程将在今年年底结束。
然而,这项耗资3000万英镑(4000万美元)的试点项目,被称为先锋项目,只是为更广泛的主要阶段奠定了基础,这一阶段将对生物银行50万样本库的其余部分进行测序。
这个项目与……相吻合单独的工作对50万份生物样本的外显子进行测序,本月首批5万份样本向研究人员开放。英国生物银行还对整个储存库进行了全基因组基因分型使用Affymetrix数组在本世纪初,这些数据已经公开多年。
牛津大学(University of Oxford)医学和流行病学教授、英国生物银行(UK Biobank)的首席研究员罗里·柯林斯(Rory Collins)表示,对存储库进行全外显子组测序的努力是由制药公司Regeneron Pharmaceuticals和GSK发起的,它们同意在一段有限的独家访问数据的时间后,将数据提供给其他研究人员。
柯林斯说,这个生物银行“可以让其他人一起来做某些分析,以便对数据进行研究,然后交换条件是,这些数据也将被其他研究人员使用。”
然而,英国政府推动对所有50万名参与者的全基因组进行测序,是其生命科学产业战略(Life Sciences Industrial Strategy)的一部分75页的报告去年出版。柯林斯说:“他们说,作为战略的一部分,获得全基因组序列数据将是有吸引力的,从而在英国创造一个鼓励学术和工业研究人员在英国进行研究的环境。”
英国医学研究委员会,负责协调和资助英国医学研究的组织,为试点阶段的努力提供了资金,在招标过程后,位于欣克斯顿的惠康桑格研究所被选中对首批5万个样本进行测序,柯林斯指出,这些样本与Regeneron和GSK测序的全外子组样本或多或少相同。
桑格医学院的科学运营主任科迪莉亚·兰福德(Cordelia Langford)说,这家非营利机构将从最初的5万名队列测序中获益,因为它的研究人员最终将在他们的研究中使用这些数据集。“出于这个原因,我们希望参与生成真正高质量的数据,”Langford说。“为了确保它达到并超过我们的预期,我们进行了投资。”
对桑格来说,建立一个管理5万个全基因组测序的管道也是一个挑战。兰福德指出,研究所增加产能是因为该项目的“巨大规模”。该研究所一直在使用这家圣地亚哥供应商5年前推出的Illumina HiSeq X Ten系统,该系统由10个仪器组成,每年能够对1.8万个基因组进行测序。对于先锋项目,桑格转移到更新的NovaSeq 6000,每次运行最多可以测序48个全基因组。Illumina公司推出NovaSeq在2017年。
Langford说,先锋项目为桑格提供了学习和实施这项新技术的机会。vwin德赢ac米兰合作
兰福德说:“在项目提案中提出了一些特定的假设,以交付先锋项目。”她说:“一是假设我们将使用目前最新的短读测序。”“我们花时间开发我们的流程,只是为了完善它们,这样当样品开始流动时,我们就可以开始工作。”
这包括开发一个质量控制流程,在测序过程中定期评估数据质量。Langford说:“我们需要一种基础设施,使我们能够自动控制从生产端大量输出的所有数据。”
Langford说,桑格公司正在生产压缩序列或CRAM文件,这些文件将被传递给另一个组织,该组织将在逐个样本的基础上对每个文件的变体进行调用,并将进行联合队列调用,即将大量样本一起分析。她指出,目前还没有决定由哪个组织来承担信息学变异呼叫过程。
桑格实验室去年夏天收到了第一批Vanguard样本,并有望在2019年底前完成所有5万个样本的全基因组测序。
虽然其目的是让研究人员可以使用这些数据集,但Collins表示,“将这些数据转化为可以使用的状态还需要相当多的工作。”
另一个迫在眉睫的问题与所谓的主要阶段有关。柯林斯说,威康信托基金、政府、工业界和其他方面正在讨论如何筹集资金,对生物银行中剩余的45万个样本进行全基因组测序。他估计,进行测序将花费大约2亿英镑,并估计可以在未来两到三年内完成。
“这就是我们的野心,”柯林斯说。他说:“我们已经提供了基因分型数据,我们已经开始提供外显子组测序数据,并将在未来一两年提供更多数据,在此期间,我们将提供全基因组测序数据。”他指出,所有的数据都附有其他数据集,如健康结果数据和成像数据。英国生物银行目前正在对大约10万人的重要器官进行核磁共振扫描。
桑格大学的Langford指出:“如果你从终点开始,仅从Vanguard产生的数据集将变得更加重要,因为每个来自UKBB个体参与者的样本已经获得了非常丰富的数据集,仅就基因分型、整个外显子组测序而言,而且还包括已经发生的附加成像和化学测量。”她说:“因此,这不仅仅是遗传数据的问题,它还包括电子记录和其他数据,这些数据将使大规模队列规模的分析和解释成为可能。”
目前还没有决定由谁来承担英国生物银行剩余45万个样本的全基因组测序工作。然而,Langford表示,桑格号能够展示最佳实践,并分享关于主阶段可能如何排序的信息。她说:“如果我们参与其中,我们将能够确定使用的机器数量,并提供有关如何将库加载到流单元的策略,以提供在该规模下测序所需的规模和吞吐量。”
外显子组测序数据
作为先锋项目的一部分,桑格继续对5万人的整个基因组进行测序,而整个库的外显子组测序则通过由Regeneron和GSK领导的生物制药公司继续进行。
经过9个月的独家访问期后,第一批5万名参与者的数据于本月早些时候向公众公开。两家公司的研究人员还发布了一份手稿的预印本描述一些初步发现从数据集中BioRxiv.
包括艾伯维(Abbvie)、阿尼兰(Alnylam)、阿斯利康(AstraZeneca)、百时美施贵宝(Bristol-Meyers Squibb)、百健(Biogen)、辉瑞(Pfizer)和武田(Takeda)在内的一个更大的公司财团,将支持在明年之前对英国生物银行剩余45万名参与者的外显子组测序。
到目前为止,位于纽约Tarrytown的再生基因中心(Regeneron Genetics Center)总部进行了测序。
英国生物银行的柯林斯承诺,最终将公布外显子组测序的所有数据。“外显子组序列数据为你提供了更多关于基因组中产生蛋白质部分的遗传结构的细节,这超出了基因分型所能做的,”他指出。“外显子组测序使人们能够观察与特定条件密切相关的更罕见的变体。”
Regeneron发言人Alexandra Bowie说,该生物制药公司在外显子组测序和全基因组测序工作中“看到了很大的价值”。
Bowie说:“我们不认为基因组和外显子组测序是两极化的——一个不排除另一个,我们相信目前外显子组对药物开发工作是最有信息的,这是我们在Regeneron的主要关注点。”
她说,Regeneron公司预计到2020年将对所有50万个外显子进行测序,除了最初测序的5万个外显子外,目前已经对10万参与者的外显子进行了测序。在Regeneron及其合作伙伴在9个月的独家授权期内获得外显子组测序数据后,英国生物银行将继续分批发布外显子组测序数据。鲍伊说,下10万名参与者的外显子组测序数据将于2020年初公布,所有数据将在2021年之前公布。
柯林斯承认,即将获得的大量全基因组和全外显子组数据一定会让最有经验的生物信息学家感到困惑。不过,他说,任何分析上的挑战都是可以克服的。
柯林斯说:“我们的工作是创造性地制造问题,让别人来解决。他说:“没有人想象过我们可以成像到我们提出的成像水平,但我们能够做到,但如果我们制造了问题,让它广泛使用,那么人们就会解决它。”“测序数据也是如此。”