芝加哥-来自NuProbe、莱斯大学和微软英国研究院的研究人员开发了一种新的深度学习方法,可以从DNA探针的序列中预测DNA测序深度,准确率高达99%。
研究人员开发了预测计算方法,描述在纸本周发表于自然通讯他们用包含近4万个探针的下一代测序面板测试了一个循环神经网络。然后他们验证了他们的技术,确定它可以预测测序深度,单核苷酸多态性面板的准确率为93%,用于DNA信息存储的非人类序列面板的准确率为99%,在SNP面板上训练的长非编码RNA面板的准确率为89%。
根据本文,同样的模型也可以预测测得的DNA杂交和链位移的单链动力学速率常数。
David Yu Zhang是位于休斯顿和上海的分子诊断和技术公司NuProbe的联合创始人和创新主管,也是这篇文章的通讯作者之一,他说他不知道以前有任何预测NGS深度的深度学习模型。vwin德赢ac米兰合作
“我们开发的深度学习模型的重点是预测某些序列何时会有低结合率,”张说。“我们可以通过设计更多的探针或增加滴定来弥补这一点。”
Twist Bioscience的首席vwin德赢ac米兰合作技术官陈思远在电子邮件中表示,他的公司有多种分析测序数据的专有流程,包括一种基于机器学习的方法,可以帮助定制探针。据陈说,这“在测序覆盖率方面产生了业界无可比拟的一致性。”然而,Twist并没有公开详细说明这一过程。
Twist没有参与论文中描述的研究,尽管研究人员使用了该公司合成的探针。
在他们的文章中,作者写道,他们的计算模型“可以帮助选择具有更高均匀性的探针集,并调节探针浓度以实现更高的均匀性。”
他们还说他们正在申请专利x探针及其速率常数预测模型为本研究开发。
靶向测序板通常用于检测体细胞突变,但每个DNA杂交探针的结合动力学略有不同,导致相对于全基因组序列的偏差。张说:“由于DNA结合的特性,我们感兴趣的基因的富集最终具有非均匀性。”
在建立他们的深度学习模型时,研究人员选择了一种循环神经网络,就像那些广泛应用于商业语音识别和自然语言处理软件的神经网络一样,因为他们确定这种类型的网络适合捕捉DNA探针内的短程和远程交互。他们写道,传统的前馈神经网络和卷积神经网络有固定数量的输入点,“不太适合DNA序列输入”。
例如,DNA可以形成张所说的“巨大的发夹”,其中第一个碱基与最后一个碱基结合,第二个碱基与倒数第二个碱基结合,以此类推。“你可以有一个非常长的if/then语句或一些可以被循环神经网络识别的东西,但由于池和层的关系,卷积神经网络真的无法识别,”他说。
7月1日,张勇从莱斯大学生物工程系的教职岗位上开始了为期两年的休假,以帮助NuProbe度过成长阶段,并着眼于最终的首次公开发行(ipo)。
NuProbe成立于2016年,起源于莱斯大学和哈佛大学的威斯学院;另一位联合创始人尹鹏是哈佛医学院的系统生物学家。这家公司宣布了一项4200万美元的融资今年早些时候,为基于ngs的癌症诊断测试提供靶富集分析和试剂。
一旦他们建立了循环神经网络,研究小组用39145个单核苷酸多态性面板训练深度学习模型,并独立地使用7373个探针合成面板。一个2000个探针的lncRNA面板帮助研究人员验证了他们的计算方法。
“我们将每个预测作为一个单独的标记实例来处理,但我们最终想做的是有很多独立的NGS库来查看,”张说。他指出,创建NGS库既需要计算,也需要大量劳动;目前建造一个图书馆大约需要三天时间。
张说NuProbe目前正在与微软研究院合作,将这项技术推广到更长的DNA序列上。他说,研究团队还没有探索深度学习模型是否可以应用于其他测序技术的靶向测序,但他指出,NuProbe确实有一个单独的与牛津纳米孔技术公司建立了合作关系.
“之后,我们希望将机器学习应用到基因组学的许多方面,但我们现在正在迈出一小步,”张说。
Twist生物科学的陈说,这项研究代表了一个“可行的假设”,他补充说,他相信NuProbe-Microsoft方法确实可以应用于不同长度的DNA序列。他说:“观察进展和进展将是有趣的。”
张说,神经网络和深度学习模型的第一次迭代的架构可能还不是最优的。“我们当然正在探索许多其他类型的神经网络架构,”他说。“我确实认为,无论是将学习转移到其他基因组学问题上,还是制作一个更复杂的网络,都有很大的改进空间,可以进一步提高我们预测的准确性。”
软件代码为GitHub上可用但张伟并不指望开源编程社区的许多成员会下载并添加到这项技术中。vwin德赢ac米兰合作“它有点笨拙,所以对微软来说,把它变成更容易使用的东西可能更有意义。”