纽约——研究人员已经开始梳理癌症样本基因组中非独特部分先前隐藏的体细胞突变,包括编码区和调节元件。
在整个进化过程中,人类基因组的部分经历了复制和重排,导致不同部分彼此相似。由于目前许多测序工具都依赖于短读技术,因此将相似的片段分开来调用突变可能是一件棘手的事情。vwin德赢ac米兰合作弗朗西斯·克里克研究所(Francis Crick Institute)的博士后马克西姆·塔拉比奇(Maxime Tarabichi)表示,就短读长度而言,大约10%的人类基因组是非独特的。
“为了能够将突变分配到特定的位点——例如,癌症基因的编码序列——[常见的突变调用算法]在序列与基因组对齐后,逐个位置扫描30亿个基因组位点上的每个位点。而且它们会丢弃任何在任何给定位点上排列模糊的短序列,以及它们可能携带的所有潜在突变,”她在一封电子邮件中写道。“这意味着非独特区域是识别突变的经常性盲点。”
r时报道于周一自然生物技术vwin德赢ac米兰合作,她和同事们列出了一系列已知序列相似性高的区域,即所谓的“基因同义词典”,以及一种算法,利用该同义词典来发现这些非独特区域中的突变。当他们将他们的方法应用到一组泛癌症基因组时,研究人员在大约1700个编码序列和数千个调节元件中发现了隐藏的突变。这些突变影响了已知的癌症基因、免疫球蛋白和其他高度突变的基因家族。
研究人员训练了一种机器学习方法,使用他们的基因词典来注释在短读数据集中发现的映射不明确的突变。Tarabichi说,对于大多数突变,他们可以使用数据中明确的锚点将突变映射回它的位置,但即使他们不知道突变的确切位置,他们仍然可以开始描述它。
他们将这种方法应用于“泛癌症全基因组分析”数据集中的2658种癌症,发现了1744个编码序列中的突变以及调控元件中的数千个突变。研究人员估计,他们的方法每个样本的中位数错误发现率为7%,每个样本的中位数假阴性率为9%。在另一个癌症样本上使用正交短读和链接读测序方法,他们报告了超过80%的验证率。
在癌症中,大多数突变都是伴随突变,对肿瘤生长或疾病进展没有影响,研究人员注意到,他们通过基因同义词典方法识别的大多数突变也是如此。但他们发现的一些突变似乎会影响已知癌症基因的蛋白质编码序列。
“有趣的是,我们发现了许多影响真正癌症基因蛋白质序列的突变。我们还在新的候选癌症基因中检测到过多的蛋白质改变突变,许多突变发生在序列高度相似的基因家族成员中,”Tarabichi说。“其中一些基因已经与癌症有关,但根据经典的突变调用者,它们的编码序列似乎从未发生过突变。”
例如,他们发现了PIK3CA和KMT2C的复发突变,以及影响乳腺癌相关基因ANKRD30A和与PTEN通路相关的TPTE基因的突变。其他突变影响调控区域,包括免疫球蛋白家族成员的启动子区域。
Tarabichi指出,长读测序方法也将开始解决映射问题,但他补充说,迄今为止大多数大型基因组数据库都是用短读序列开发的,所以他们现在可以将他们的工具应用到这些数据库中。