这个故事已经更新,包括来自另一个AMP会议的评论。
芝加哥——基因组参考联盟的GRCh38参考基因组——也被称为hg38——在2013年取代了GRCh37 (hg19),但许多临床分子实验室仍然依赖较老的基因进行变异调用和基因组分析。不过,芝加哥卢瑞儿童医院(Lurie Children’s Hospital of Chicago)是成功实现这一跨越的医院之一。
“简而言之,hg38是一个更好的基因组组合,”Lurie儿童医院生物信息学主任Sabah Kadri在本周的分子病理学协会(AMP)虚拟年会上说。
Kadri说,新的组装纠正了hg19的测序错误,并对着丝粒有了更多的覆盖,但最主要的是,它的替代位点使其更好。她指出,许多研究实验室已经转移到hg38,流行的数据库也是如此,尤其是基因组聚合数据库(GnomAD)的第三版,但临床实验室转移得很慢。
她表示,信息技术是一个关vwin德赢ac米兰合作键的限制因素,尽管对未知的恐惧可能也是一个重要原因。
“我知道,这是一个很多实验室都不愿意解决的问题,”该医院病理科的计算生物学家卡德里说。“不知道这些变化是什么,以及它们将如何具体影响你的(下一代测序)检测或你在临床实验室的过程……让人们不敢迈出这一步。”
她说,实验室在进行这种迁移时通常有四个问题。移动需要多少努力,实验室是否有能力投入这些努力?迁移将如何影响实验室的特定测试、结果、数据库和临床报告?实验室的信息系统是否能够处理装配的变化?生物信息学管道必须做出哪些改变?
Kadri说,Lurie Children's在一年多前就已经在这一点上了,但在7月成功地完成了将其4700个基因的医学外显子组和用于生殖系测试的相关面板转移到hg38。当时,医院正在改变其内部测序平台,并认为这将是迁移到hg38的正确时机,因为它必须重新验证整个检测菜单。
她说,这一过程既适用于生殖系检测,也适用于体细胞检测。
为了做出改变,生物信息学家和病理学家评估了hg38在其特定临床领域的基因组序列是如何变化的,基因本体是如何变化的,以及是否对变异的调用或注释有影响。Kadri解释说:“这三个因素都会对你的生物信息学管道和过程产生影响。”他还补充说,基因组序列和本体论的改变也会影响分析设计。
迁移有四个阶段,它们之间有重叠:理解分析设计的影响,基因组测序的变化,生物信息学管道的变化,实验室信息学的变化,包括不同的数据库。“我们从一开始就没有那么系统,”卡德里承认。
分析迁移设计可以通过两种方式进行:在hg19中进行测试并稍后转换变体,或者在hg38中进行所有操作。西北大学范伯格医学院(Northwestern University Feinberg School of Medicine)的附属机构Lurie Children’s选择了后一种方法。
“最重要的是检查基因或外显子边界是否发生了变化,”Kadri建议。“不要让这件事吓到你。”同样重要的是要确保正确的对齐,以知道插入探针是否覆盖了这些新区域。
需要将探针和外显子映射到hg38以了解其变化。虽然Lurie Children's不必改变其检测设计或添加任何添加物,但Kadri说,分析帮助实验室了解两种组合的差异,因为这些差异会影响下游的结果。
Kadri指出,对于某些基因,Broad研究所参考序列(RefSeq)数据库的综合基因组查看器(IGV)注释可能与最新版本不匹配,也可能与用于创建给定分析的早期hg19版本不匹配。她说:“我们通过艰难的方式了解到,hg19中的RefSeq注释实际上会与hg38中的注释一起更新。”
“不要盲目使用IGV。使用管道使用的自己的文件,否则最终可能会错过其中的一些更改,”Kadri建议。
在Lurie的研究人员检查的4700个基因中,他们发现约200个基因的外显子发生了变化,这些基因在医院的医学外显子测试中没有探针。大多数不在临床面板上,对于那些在的,他们决定用桑格测序数据回填。卡德里说,有220个额外的基因包含在有新的外显子区域的面板中,但由于有探针,Lurie不需要在那里做任何调整。
“我们发现hg19和hg38之间的外显子结构几乎没有变化,”卢瑞儿童医院的生物信息学家和统计遗传学家安德鲁·斯科尔(Andrew Skol)在另一次AMP会议上说。
在理解基因组序列水平的影响的第二阶段,医院从管道资源文件开始,将它们映射到hg38,然后评估变化。“我们意识到事情没有那么简单,”卡德里说。“在这些映射中有很多细微差别。”
尽管如此,大多数基因间隔都能完美匹配。对于那些有差异的基因图谱,他们开始研究差异,并创建了一个名为参考基因组图谱仪(ReGe)的图谱工具包,它使用国家生物技术信息中心的基因组图谱服务(NCBI Remap),让其他人对自己感兴趣的特定基因进行类似的观察。vwin德赢ac米兰合作
ReGe工具包在基因级别对重映射进行分类和组织,执行覆盖率分析,以便更容易地跟踪和评估转换的效果。“它指出了需要关注的地方,”斯科尔解释道,并补充说他的团队也在开发一款用于简单搜索的网页应用程序。
在生物信息学转换阶段,Lurie团队评估了数据质量,并考虑了生物信息学管道的变化。
为了加快这一过程,他们通过ReGe工具包运行了hg19和hg38之间的差异,以预测可能存在映射问题的区域。的两个引用控件瓶子里的基因组Kadri说,GIAB联盟帮助提高了准确性。
她说,“重要的问题”是,替代位点是否应该纳入hg38的实施,Lurie决定不这样做。Kadri说:“我们的生物信息学还不够成熟,无法管理伴随这些基因座的对齐质量问题。”
Lurie选择调整其生物信息学管道,添加一个多映射模块,以努力提高变量调用的数据质量。“这不是一个完美的解决方案,但它肯定有助于我们标记这些区域,然后我们用正交试验进行确认,”Kadri说。
在迁移的最后阶段,Lurie研究迁移是如何影响变量注释的。她说:“你的变体注释变化将真正取决于你的三级分析系统。”定制的实验室系统可能比现成的安装需要更多的更改。Lurie使用Alamut商业软件,几乎没有出现问题,她说。
然而,这也可能影响实验室信息管理系统(LIMS)。Kadri说,只要基因组组装被作为表格条目跟踪,就不需要数据库更新问题。然而,芝加哥医院的LIMS在选择变体时自动设计桑格确认引物。因为这个设计是用hg19构建的,Lurie必须实现一个新的hg38模块。
对于拷贝号调用,Lurie有一个单独的NGS和微阵列软件,但阵列仍然在hg19中处理,NGS在hg38中处理,因此这个过程的管理需要两个单独的数据库。
美国国家标准与技术研究所材料测量实验室人类基因组学团队的负责人Justin Zook在同一届AMP会议上说,Lurie对重叠系统采取了适当的方法,因为单一的参考文献不允许读取的正确对齐。vwin德赢ac米兰合作例如,一些基因将复制数从GRCh37改变到GRCh38。
GRCh38使用了不同的装配模型,有261个备选位点,代表许多单倍型。“这有助于纠正GRCh37的一些问题,”Zook说。这些方法消除了导致读取对齐问题的错误间隙,尽管一些分析软件还没有赶上来。
Zook说:“用目前的工具来使用这些替换位点并在其上注释变体实际上是相当困难的。”
Zook是“瓶中基因组联盟”(GIAB)的负责人,他概述了过去、现在和未来的变种调用参考基因组,这些基因组将继续推动该领域的发展。他指出Telomere-to-Telomere T2T财团和人类泛基因组参考联盟正在开发新的参考组合。
他认为,在某些情况下,GRCh38和T2T基因组组合可能比单独使用GRCh38更好。T2T是一个由加州大学圣克鲁斯分校和美国国家人类基因组研究所的研究人员领导的国际团队。
Zook说,GRC计划进行的名为GRCh39的更新已经“无限期推迟”,而该联盟正在评估人类参考组件的新模型和序列内容。
与此同时,据Zook说,T2T正在开发第一个几乎完整的人类基因组序列。该联盟在9月发布了该集合的1.0版本,扩大了着丝粒和异染色质的覆盖范围。
Zook说:“这是一种全新组装方式的巨大进步。”“我的想法是,也许这可以成为你可以使用的另一个参考。”
他说,T2T版本在变量调用方面比GRCh38做了改进。例如,GRCh38缺少GPRIN2的一个副本。来自细胞系CHM13的新参考文献提供了该区域更好的覆盖范围,特别是太平洋生物科学HiFi读数较长。它还纠正GPRIN2现有副本中的错误映射读取。
然而,在某些情况下,GRCh37和T2T可能比GRCh38更好,因为后者有额外的CBS和KCNE1副本,这可能导致错误的读取,即使是长时间的读取。Zook说:“带着怀疑的眼光看待任何参考资料都是有用的。”