纽约(基因组网)-威康桑格研究所和剑桥大学的研究人员开发了一种机器学习工具,根据被编辑的DNA序列和被使用的引导RNA (gRNA),预测可能导致CRISPR-Cas9基因编辑细胞的确切突变。
正如他们今天报道的自然生物技术vwin德赢ac米兰合作研究人员系统地研究了合成结构中41,630个gRNAs在一系列遗传背景下产生的编辑,并使用了各种CRISPR-Cas9试剂。他们总共收集了超过10个的数据9突变结果发现,单碱基插入,短缺失,或较长微同源介导的缺失构成了大多数的结果突变。
作者写道:“每个gRNA对特定的结果都有独立的细胞系依赖性偏见。”“我们发现了突变产生的序列决定因素,并使用这些来推导出Cas9编辑结果的预测器。对序列修复的理解的提高将使基因编辑实验的设计变得更好。”
研究人员首先设计了一种检测方法,可以同时测量大量的修复结果。他们生成了几个grna -目标对库,总共有超过40,000个结构,将它们传递到细胞中,然后对细胞进行高覆盖率测序,以测量已经发生的插入和删除的频率。他们观察到,该检测方法忠实地、重复地捕获了大多数内源性突变结果。
研究人员接着调查了6568个针对人类基因的gRNAs,发现单核苷酸插入和删除是最常见的,大规模插入很少发生。他们还发现,短时间的删除比长时间的删除更频繁,但大型删除事件的长尾存在。
“尽管短时间的缺失更为频繁,但大多数cas9产生的突变(58%)导致至少三个碱基对的缺失。其中大约一半(31%)发生在至少两个(核苷酸)的重复序列之间(‘微同源性’),”作者写道,并补充说,1或2个碱基对的缺失占观察到的突变的18%,一个碱基对的插入占13%。在3%的情况下,较大规模的插入很少。
据研究人员称,总的来说,一半的测量gRNAs的单一结果至少贡献了20%的观察结果,11%的结果至少贡献了40%的观察到的突变。
作者写道:“再加上上面剖面可重复性的证据,这为cas9产生的裂缝描绘了一幅复杂但并非完全随机的修复过程。”“修复结果取决于局部序列属性。”
这些观察和后续实验的结果向研究人员表明,由Cas9产生的突变应该仅从序列就可以预测。为了验证这一假设,他们开发了一个给定gRNA突变结果的计算预测器,他们称之为FORECasT (Cas9靶点修复事件的有利结果)。
他们开始为每个gRNA生成候选突变,并基于局部序列特征为它们派生特征。然后,他们将可用的grna分为训练集、验证集和测试集,并训练一个多类逻辑回归模型,发现它不仅在训练的K562细胞上,而且在其他细胞系上都达到了“良好的准确性”。
该团队已经将预测器作为一个可用的网络工具在和作为GitHub上的命令行工具.
作者总结道:“cas9产生的等位基因显示出强烈的序列依赖性偏差,尽管遗传背景和物种之间存在一些差异,但对于主要类型的突变来说,这种偏差是可复制和可预测的。”
他们还注意到,像亨廷顿舞蹈病或脆性X染色体综合征这样的遗传疾病——由于短串联重复序列的扩增——是用Cas9编辑微同源介导修复的潜在候选对象,特别是未来的治疗可能只涉及这些扩增的收缩,而不需要替换故障的等位基因。研究人员补充说:“事实上,在这个方向上的一些初步努力已经取得了有希望的结果,但考虑到可能的无意的基因组损伤,在任何应用于人类之前,都需要尽可能严格地证明安全性。”“这里提出的数据和模型将有助于指导gRNA设计,以实现全基因组筛选和定制编辑的预期结果。”