纽约——基因组10K脊椎动物基因组计划(VGP)和地球生物基因组计划(EBP)正在分别对所有现存脊椎动物物种和所有真核生物物种的基因组进行测序。
昨天,在洛克菲勒大学举行的G10K-VGP/EBP联合会议上,VGP、EBP和附属项目的成员概述了他们的进展和计划,包括最近的资金。他们还讨论了高质量的参考基因组对保护项目的重要性,反驳了有关项目产生的基因组资源可能不够快,不足以解决气候变化和其他人类活动导致的物种快速灭绝的批评。
虚地磁极,首先2018年初宣布,旨在为所有71500种左右现存的脊椎动物物种生成几乎无错误、完整、单倍型阶段的高质量基因组组合——这个数字最近从之前的66000个修订了。计划分三个阶段进行,估计总成本约为6亿美元。第一阶段将包括260个脊椎动物目的每个代表物种。VGP成员决定为该项目的这一部分结合来自多种技术的数据,包括来自太平洋生物科学公司的长读取,来自10x基因组公司的链接读取,来自Bionano基因组公司的光学地图,以及来自Arima基因组公司的Hi-C近距离连接数据。大部分数据都是在洛克菲勒大学的测序实验室、威康基金会桑格研究所和德累斯顿的马克斯·普朗克分子细胞生物学和遗传学研究所生成的。
一年前, VGP宣布完成并发布第一批15个参考基因组组合,代表14个物种和13个目。从那时起,该项目已经为另外101个物种(100个脊椎动物和一个海星)生成了基因组组装,代表了77个额外的分类目,这些物种要么已经完成,要么正处于组装的最后阶段。大约60个基因集已经通过基因组方舟数据库提供,其余的将在未来几周内发布。它们还将被注释并显示在公共基因组浏览和分析数据库中,如UCSC基因组浏览器,最近增加了24个assembly。
VGP主席、洛克菲勒大学教授Erich Jarvis说,他的团队已经吸取了两个教训:基因组“充满重复”,需要跨越这些重复区域的序列数据,而且每个基因组的两个单倍型很难组装,这就是为什么该项目在最近的一些组装中使用了三重奏方法,利用来自亲本基因组的序列数据。
他说,为了扩大组装过程的规模,该项目开始将一些算法转移到云端,这也具有挑战性。“今年我们花了很多时间重新设计算法,”除了训练更多的科学家使用它们,他说。
国家人类基因组研究所(National Human Genome Research Institute)的研究人员、VGP组装小组负责人亚当·菲利普(Adam Phillippy)证实,他的小组一直在“努力扩大到数千个基因组”,并强调需要投资新的分析工具。
组装工具“仍在积极开发中”,NHGRI的研究员Arang Rhie说,他鼓励其他科学家使用VGP数据集来帮助开发更好的方法。
Rhie告诉GenomeWeb,该项目正在考虑在VGP的第二阶段添加超长纳米孔读数,并指出它们在其他项目中显示了良好的结果,但她警告说,目前这些读数仍难以扩展。
德累斯顿MPI的研究员吉恩•迈尔斯(Gene Myers)表示,扩大规模的另一个挑战是“给机器喂食”,他表示,目前这需要太多的人力,未来将需要更多的自动化和实验室信息管理系统。他还说,该项目“没有充分利用所生成数据的信息”,新的分析方法可能产生更好的组装。
据贾维斯说,VGP继续包括极度濒危的物种,比如小头鼠海豚,目前只剩下几十只。“如果它灭绝了,至少我们将永远拥有它的基因组,”他说。
虽然该项目没有集中的资金来源,但霍华德·休斯医学研究所、威康·桑格研究所、洛克菲勒大学、马克斯·普朗克研究所和美国国立卫生研究院都对测序基础设施进行了投资。此外,VGP的科学家已经通过众筹筹集到了项目第一阶段所需的600万美元中的480万美元,并将继续这样做。
VGP只是21个项目中的一个地球BioGenome项目该网络由14个国家的26个合作组织组成,其总体目标是在10年内对150万个已知真核生物物种的基因组进行测序和注释。该项目的估计价格为47亿美元,加州大学戴维斯分校教授、EBP主席哈里斯·卢因(Harris Lewin)指出,这一数字低于人类基因组计划的54亿美元(以2012年美元计算)。
EBP的第一阶段目的是为大约9300个真核生物分类科中的每个科确定一个代表性物种的序列。
Illumina公司的副总裁兼杰出科学家Gary Schroth在会议上表示,他的公司将捐献“100个基因组价值的Illumina数据”,作为高质量的参考基因组。他告诉GenomeWeb,实物捐赠将以试剂的形式提供给生产数据的测序中心,序列读取将用于生成10倍基因组连锁读取和Hi-C近距离连接数据。
另一个与ebp相关的项目是达尔文生命树最近,该项目在两年的时间里赢得了800万英镑(980万美元),使这项努力得以启动。最近加入桑格研究所领导该项目的马克·布拉克斯特(Mark Blaxter)表示,研究重点将放在不列颠群岛的原生物种上,他说这些物种是“一个完美的生态实验室”,可能成为更大的EGP的测试案例。
达尔文生命树项目正在与英国各地的一些机构合作,收集样本,开发单细胞生物和复杂基因组测序的新技术,包括伦敦的自然历史博物馆;皇家植物园,邱园;厄勒研究所;埃克塞特大学;和爱丁堡大学。
Blaxter说,他们的目标是在未来10到12年里对6万个英国物种进行测序,最初几年每年大约1000个物种,之后每年大约5000个物种。
加州大学洛杉矶分校/La Kretz加州保护科学中心主任Brad Shaffer在昨天的会议上通过视频连线发言说,另一个与eep有关的项目——加州保护基因组学项目刚刚从加利福尼亚州获得了1000万美元的拨款。该项目的主要目标是帮助保护加州的受威胁和濒危物种。最初的三年阶段旨在对150个物种中的每一个进行100个个体的测序,并利用其基因组多样性的结果来确定保护目标和优先事项。
Shaffer说,与VGP相比,该项目不会产生高质量的参考基因组,而是专注于产生大量低质量基因组,同时也利用VGP和其他EBP项目的高质量参考基因组。
谢弗解释说,虽然“超高质量基因组”本身并不总是对保护项目有用,但它们提供了一个参考,与其他基因组数据结合,可以获得关于物种基因组多样性的信息。
Blaxter提到,例如,去年完成的金雕高质量基因组已经被用作物种保护项目的一部分。
此外,根据Lewin的说法,反映一个个体近交系的基因组的长序列纯合度,只能用高质量组装中的长序列来评估。他补充说,纯合子序列甚至可以作为一个物种灭绝风险的衡量标准,作为一种保护工具可能“非常有帮助”。
圣地亚哥动物园保护遗传学主任奥利弗·莱德(Oliver Ryder)补充说,高质量的基因组可能也有助于发展基因测试。他说,例如,加州秃鹰种群携带一种致命常染色体隐性遗传病的突变,要开发一种携带者筛选测试,就需要高质量的基因组。