本文已更新,以澄清当前的人类参考集合具有多个单倍型的区域。
一组研究人员来自宾夕法尼亚州立大学、新加坡南洋理工大学、罗氏454、国家生物技术信息中心、基因泰克公司、儿童医院研究所和华盛顿大学基因组研究所的研究人员已经利用几个下一代测序平台对人类基因组计划的20名捐助者之一进行了测序,并正在进行一项vwin德赢ac米兰合作研究新创组装他的基因组,以改善人类参考组装。
两周前,在佛罗里达州马可岛举行的“基因组生物学与技术进展”会议上,由罗氏公司赞助的一个研讨会上,该项目的带头人斯蒂芬·舒斯特(Stephan Schuster)首次展示了初步结果和来自捐赠者RP11的基因组草图。vwin德赢ac米兰合作
人类基因组计划最初收集了来自纽约布法罗的20名匿名捐赠者的样本,但由于可能与由他们的DNA制成的BAC文库质量有关的原因,一个捐赠者——RP11——占了人类参考样本的72%。
人工参考程序集的当前版本GRCh37。尽管P11是迄今为止最完整、最准确的基因组,但它仍然存在许多空白和不明确之处。它在很大程度上也是单倍体的,尽管它有许多区域,其中有一个以上的单倍型。
NCBI的科学家迪安娜·丘奇(Deanna Church)说,RP11基因组组装可以帮助弥合这些差距,纠正单碱基错误。她参与了该项目,也是更新人类参考组装的基因组参考联盟的成员。
此外,RP11有可能为二倍体参考基因组提供分期信息。在宾夕法尼亚州立大学和南洋理工大学同时任职的舒斯特尔告诉记者:“有一种方法可以完整地解析两条染色体一直是该领域的一个梦想。按顺序.
他说,他还喜欢使用人类参考来验证RP11组装的准确性和完整性,这使该项目有别于其他项目,例如美国国家标准与技术研究所的“瓶中基因组”(vwin德赢ac米兰合作临床测序新闻2012年9月5日).他说,虽然这项努力在创造高质量的人体组合方面有着相似的目标,但它“缺乏验证序列的能力”。然而,Church参与了这两个项目,他说RP11不是NIST项目的一个很好的候选者,因为RP11没有细胞系,所以可用的DNA数量是有限的。
据舒斯特说,RP11项目起源于他的实验室和Roche/454的合作,尽管现在它也包括大量的Illumina序列数据。他说,他获得了IRB对RP11测序的额外批准,尽管IRB对这个样本的批准早在人类基因组计划时期就存在了。
在之前与454的合作中,舒斯特尔在宾夕法尼亚州立大学的团队生成了一个新创仅从454个数据中就组装了一个非洲丛林人的基因组(是2/23/2010),其中包括不属于人类参考的contigs和scaffold。
罗氏(Roche)旗下的基因泰克(Genentech)也参与了RP11项目,提供了来自不同疾病群体的800个已测序的人类基因组集合,用于与RP11基因组进行比较,例如评估在人类参考基因中不存在的DNA是否存在于其他人类基因组中。舒斯特说,像基因泰克这样的制药公司在获得尽可能完整和准确的参考基因组方面有着“巨大的兴趣”,这使他们能够建立原本无法建立的疾病关联。
到目前为止,454的服务中心已经为该项目生成了20个GS FLX+片段读取数据,以及2个GS FXL+配对数据,这些数据来自大小从3到10千碱基不等的库。Schuster说,这些数据的质量非常高,大多数运行的模态读取长度为950个碱基对,许多读取超过1000个碱基对。
舒斯特自己的实验室已经生成了34倍Illumina HiSeq 100碱基对端数据和22倍MiSeq 250碱基对端数据。根据MiSeq的数据,他们将成对的末端读取拼接成大约450个碱基对的单个连续读取,平均误差为0.6%,在两个读取的重叠区域误差约为1%。
此外,来自CHORI的研究人员已经产生了大约75万个40千碱基的fosmid克隆,汇集到96个文库中,每个文库代表大约10%的二倍体基因组,舒斯特的实验室在HiSeq上对这些文库进行了测序,产生了另外102倍的数据。
华硕基因组研究所也贡献了HiSeq reads,包括120x 100碱基对的端数据。
对于RP11基因组的组装草案(称为RP11_0.7),研究人员只使用了数据的一个子集,16.5倍的454 FLX+霰弹枪读取,1.8倍的454 FLX+配偶对数据与5千碱基插入,以及7.5倍的MiSeq拼接读取,因为组装软件- 454的Newbler -目前无法处理更多的数据。
第二个草案程序集,称为RP11_1.0,目前正在进行中,它将包括额外的454个FLX+ shotgun读取,MiSeq stitch读取,以及HiSeq fosmid读取。
但舒斯特尔说,即使是这样的初步组装,也产生了最好的结果新创根据contigs中的碱基总数(2.813千兆酶)和contig N50中的127千碱基来判断,从下一代测序数据到目前为止的人类基因组的组装。次佳新创他说,组装是Schuster的丛林人基因组KB1的组装,其次是ALLPATHS-LG组装和中国YH1组装。
然而,RP11组件仍然落后于GRCh37。p11 Sanger程序集,contigs中有2.861个千兆字节,contig N50中有46.4兆字节。克雷格·文特尔(Craig Venter)的HuRef程序集也是由桑格数据生成的,contigs中有2.809个千兆碱基,contig N50为107千碱基。
两种Sanger组合对GRCh37有更好的支架N50 - 46.4兆酶。p11和19.5兆的HuRef -比RP11,其支架N50为4.6兆。
重要的是,RP11_0.7已经改进了参考序列中223个内部间隙中的89个,关闭了32个间隙,提供了跨越44个间隙的支架,并将13个间隙缩短了超过20千碱基,Schuster相信后续的组装将关闭更多的间隙。
其中一些缺口包含在疾病中具有潜在作用的基因。例如,该组装提供了与癌症有关的基因ECSCR的序列数据。虽然从RNA-seq数据中有该基因的证据,但它不包含在当前的参考集合中,任何针对参考的重测序研究都将错过它。舒斯特尔说:“你不能根据洞来绘制地图。“现在,我们正在解决这些问题。许多人可能会回去重新绘制他们的旧数据,并确定特定于他们的队列的变体。”
Schuster说,除了填补空白之外,研究人员还能够在参考基因组的“有问题的”区域正确地组装这两种单倍型,例如在17号染色体的一个区域中组装H1单倍型。
Schuster说,454的研究人员目前正在研究新版本的Newbler汇编程序,希望能够使用为该项目生成的所有序列数据。他补充说,该联盟还可能与其他组织合作使用其他软件,例如Phusion汇编器。
丘奇说:“对于那些对表演集会感兴趣的人来说,这是一个伟大的项目。因为RP11有如此多的数据可用,有时两种单倍型都可用,“我们可以真正评估汇编程序的执行情况。”
虽然会很有趣,包括在项目的其他类型的数据——Illumina公司Moleculo长合成读取和太平洋生物科学的长单分子读取将“逻辑的候选人,”舒斯特说——财团希望“保护DNA这个非常珍贵,是左”从RP11样本,所以“如果在测序技术有了巨大的进步,与100 -千碱基准确读取或者别的什么,我们有足够的材料可以离开这最完整的基因组。”vwin德赢ac米兰合作
Church说,长读技术可能有助于RP11基因组的分期,它们可能有助于解决RP11复杂结构变异的杂合区域的单倍型。
Schuster说,该项目的当前目标是在年中之前生成一个包含所有可用序列数据的RP11基因组汇编,以及描述该基因组和“现在可以获得的完整程度”的出版物。
这个时间轴允许将信息包含在人工参考程序集的下一个主要版本中。根据Church的说法,基因组参考联盟计划在8月份冻结数据,新的组装将在初秋之前提交给GenBank。
丘奇说,NCBI的GRC团队正在将RP11读取数据与参考汇编进行比对,以识别参考中潜在的单碱基错误。它们还将使RP11程序集与参考对齐,以查找新的序列。她补充说,光学测序等技术可能有助于验证RP11序列。
虽然RP11目前仍然是匿名的,但他是混血儿,舒斯特尔的团队正在进一步研究这一点。他说,他的大部分基因组都有欧洲背景,但他的祖先似乎也有大约30%是非洲约鲁班人。