纽约——基于图谱的基因组,比如人类泛基因组参考联盟(HPRC)正在构建的基因组,已经不仅仅被用于基因变异分析。
上周,来自加州大学圣克鲁兹分校的研究人员在《纽约时报》上发表了一篇论文自然方法展示了图谱基因组如何帮助分析散装RNA-seq中的单倍型特异性表达,而不需要在实验前对样本进行表征。他们开发了“泛转录组学”的生物信息学工具包,帮助将RNA映射到更复杂的泛基因组参考。
该研究的资深作者、UCSC教授本尼迪克特·帕滕说:“有了这个工具包,我们正在利用我们现在从泛基因组中获得的更多样化的数据来改进基因表达数据的测量,这些数据在个体之间可能有很大差异。”“我们的目标是让这些更多样化的数据对基因表达的研究产生影响,从而更好地分析细胞模型、类器官模型和其他研究应用。”
由Guillaume Bourque领导的加拿大麦吉尔大学的研究人员发布了一些研究,显示了图谱基因组在染色质免疫沉淀测序中的应用(ChIP-seq)而且ATAC-seq(通过测序检测转座酶可达染色质)。
布尔克说:“20年后,我们现在对人类基因组有了不同的看法,这是技术上的一个相当大的变化。”vwin德赢ac米兰合作“这是一个令人兴奋的新科学领域。”
泛基因组的时代才刚刚开始。即使是泛基因组参考文献草案只是作为预印本的一部分发布,因为作者正在等待在同行评审的期刊上发表。但这些研究表明,对于任何第一步是将reads映射回参考的分析,泛基因组都可能被证明是有用的。
2019年推出2950万美元来自国家人类基因组研究所,泛基因组项目在端粒-端粒联盟的努力下取得了进展。UCSC的研究员Karen Miga没有参与这项新研究,她是T2T和HPRC领导层的核心。
无间隙人类基因组组装,如这是T2T团队发布的将于2021年6月发布,这对于创建泛基因组至关重要,它结合了来自许多基因组的数据,包括更多样化的人类遗传变异。
虽然泛基因组联盟已经利用了新的湿实验室方法,比如更精确的长读测序,但其核心是一个生物信息学项目。因此,它刺激了新的计算方法,如a“半自动”二倍体基因组组装,出版于自然10月。
在这种情况下,泛转录组学工具包为研究人员提供了分析RNA的方法,提供了更丰富的参考,有助于解释剪接。
RNA分子中相邻的序列可能来自基因组中不相连的区域,这使得正确地将它们与参考序列对齐具有挑战性。此外,剪接位点在人群中并不是统一的,并且在个体之间可能有所不同。此外,基因表达既可以来自母系染色体,也可以来自父系染色体,因此很难准确地判断一个read应该映射到哪里。
UCSC管道识别RNA测序数据来自基因组的哪些区域,包括剪接位点,并在泛基因组参考上标记这些点。然后将这些标记点与泛基因组中包含的参考数据生成的单倍型特异性转录本组成的泛转录组进行比较。最后,它估计基因表达水平的基础上,绘制的数据和转录本在泛转录组之间的比较,并确定哪些单倍型的基因来自。
哥本哈根大学助理教授Jonas Sibbesen是这篇论文的作者之一,他指出,虽然现有的一些工具使用基于图的方法进行转录分析,但它们只适用于更小的基因区域,如HLA可变区。他说:“这是第一个可以进行全基因组检测的工具。”
Paten实验室的博士后、该研究的作者Jordan Eizenga说,运行该工具包“在任何计算机服务器上都是很容易实现的”,但使用它有计算成本。他说,与基于线性参考的方法相比,“在内存使用和速度方面都有一定的损失”。
Bourque的实验室已经探索了使用个性化的图表参考基因组进行表观遗传学研究。到目前为止,他们已经证明了这些引用可以改善峰值调用。在ChIP-seq实验中,新发现的峰在indels和snv中富集,并且可能在个体之间存在差异。
在一项关于移动元素插入的研究中,图表引用显示ChIP-和ATAC-seq峰值增加了约2%至3%。这些数据发表在BioRxiv5月预印本。Bourque的实验室还在2020年领导了一项基于图形的方法来分析ChIP-seq数据的研究基因组生物学.
布尔克说:“我的学生非常失望,因为2%的差距并不大。”“但重要的是,这2%实际上与个体之间的基因差异有关。这些是最有趣的区域。对于许多应用程序,您需要的是不同的峰值。这就是图表真正有用的地方。”
Bourque认为,基于图谱的基因组可以帮助分析其他类型的数据,例如由单细胞和Hi-C分析生成的数据。
"通常情况下,任何这些基因组分析的第一步都是读取并映射到基因组上。”“现在一切都必须改变,因为我们正在改变第一步。”
计算生物学家有他们的工作:他说:“在调整最初步骤下游的所有工具方面,有很多技术挑战需要解决。”