跳到主要内容
溢价试验:

索取年度报价

谷歌在DeepVariant中吹捧机器学习的速度和准确性

溢价

芝加哥(基因组网)——证据发表在《自然生物技术vwin德赢ac米兰合作在9月证实了DeepVariant(谷歌的基于深度学习的变体调用者)的有效性,与之前调用基因组变体的较老方法相比。

该论文的作者代表谷歌及其姊妹公司Verily表示,DeepVariant“用一个深度学习模型取代了各种统计建模组件”。

“学习到的模型可以在基因组构建和哺乳动物物种之间推广,使非人类测序项目受益于丰富的人类地面真相数据。我们进一步表明,DeepVariant可以学习调用各种测序技术和实验设计中的变体,包括来自10X基因组公司和Ion Ampliseq外显子体的深度全基因组,强调了使用更自动化和可推广的技术调用变体的好处。”

据研究人员称,DeepVariant在Illumina铂基因组数据集的NA12878样本上的表现优于Broad研究所的基因组分析工具包,以及NA12878 35个重复的标准全基因组测序。他们报告说:“DeepVariant在各种质量指标上产生了更准确、更一致的结果。”

DeepVariant的早期采用者,Color Genomics,进一步验证了该技术vwin德赢ac米兰合作海报这个月在圣地亚哥举行的美国人类遗传学学会年会上发表。不久之后谷歌推出了一个对DeepVariant的开源更新2017年12月,位于加州伯林加姆的Color成为第一个将这种变异调用者添加到其临床处理管道的临床基因检测实验室。

Color工程副总裁Jeremy Ginsberg说:“当他们开始测试DeepVariant时,我们开始进行内部测试,看看它如何提高我们为客户提供的价值。”

值得注意的是,色彩看了59岁的基因美国医学遗传学和基因组学学院建议实验室在进行临床外显子组和基因组测序测试时报告次要结果。

然后,该公司对来自科里埃尔研究所细胞系的样本以及7000个自己的样本进行了测序,并使用DeepVariant和其他更传统的调用器调用变体。

Ginsberg说:“通过这个数据集,我们在59个ACMG基因中发现了15个没有被任何其他调用者检测到的变异。”他补充说:“这15种变种,虽然我们没有通过外部实验室进行确认,但目测表明它们确实存在。”

根据金斯伯格的说法,DeepVariant对鸟嘌呤胞嘧啶含量高的区域具有额外的敏感性,ACMG-59组的高gc碱基对数量是Color测试的30个与遗传癌症相关的基因的3.4倍。然而,DeepVariant调用者并没有产生太多的呼叫,以至于研究人员不知所措。

“你不想产生太多的候选变体,这样你内部就会陷入误报。我们没有这个问题,”金斯伯格说。

Color Genomics在ASHG的海报中补充说:“只有DeepVariant检测到的新变体呼叫数量有限,这表明对我们下游工作量的影响有限。”

Color在DeepVariant的0.6版本上进行了实验,这是谷歌在近一年前引入开源代码0.4版本以来的第三个增量版本。研究社区实际上强迫谷歌发布。

谷歌提交的初稿自然生物技术vwin德赢ac米兰合作据谷歌基因和基因组学深度学习主管、谷歌AI部门深度学习项目Brain的成员Mark DePristo介绍,该版本的DeepVariant在2016年4月获得了美国食品药品监督管理局(fda)的准确性最高的SNP真相挑战奖。然而,期刊评论者批评这项技术不是开源的。vwin德赢ac米兰合作

DePristo说:“我们花了大约一年的时间从头重写整个程序,这样它就可以使用我们拥有的最新、最好的深度学习技术在谷歌内部开源运行。”

Brain团队在TensorFlow中编写了改进后的系统,TensorFlow是一个用于数值计算的开源编程代码库,在深度学习应用中很受欢迎,并针对图形处理单元和谷歌自己的张量处理单元等硬件加速器进行了优化。谷歌专门为神经网络机器学习设计了tpu;DeepVariant包含了所谓的卷积神经网络。

DePristo说:“我们选择的软件架构很可能会在相当长的一段时间内使用。”“它现在看起来像一个标准的生物信息学工具。你可以在一台机器上运行,也可以在预设条件下运行。如果你在有gpu或tpu的环境中运行它,它就可以利用这些。”

自然生物技术vwin德赢ac米兰合作DePristo称,这篇论文描述vwin德赢ac米兰合作了0.4版本的技术。DeepVariant的开源迭代在速度和准确性上有了显著的提高,并且在后续的每个版本中都有改进。

版本0.5引入了对外显子的“生产级”支持,DePristo说。“与0.4的准确率相比,这是一个显著的提高。”

在一个博客谷歌在4月宣布了该版本,称在全外显子组测序中,0.5比传统的变异调用者少43%的indel错误和22%的SNP错误。

Color最近的海报就是依靠0.6版本,它增加了对聚合酶链反应阳性样本的支持。“我们的合作者已经注意到,我们在pcr阳性样本上的表现不成比例地更差,所以我们在训练管道中添加了一些新的训练数据,其中包括pcr阳性样本。现在,这要精确得多。”

对于最新的0.7版本,谷歌决定专注于速度和DePristo所说的“成本优化”。

DePristo说:“DeepVariant现在的速度是0.6版本的三到四倍。”“如果你使用tpu进行评估,也会便宜很多。”

他说,在谷歌Cloud上以30X的速度处理整个基因组的计算成本在0.6版本上约为6美元。如果是0.7,价格就会下降到2美元。

DePristo表示,“周转时间可能更重要”,因为这在临床领域很重要。

在传统CPU上运行当前版本的DeepVariant大约需要10个小时。用TPU只要20分钟。他说,虽然获得TPU时间的成本更高,但明显更快的周转速度使TPU的成本效率是CPU的三倍。

DePristo报告说,在过去的几个月里,临床医生、实验室专业人员和研究人员都采用了这种方法。他说:“例如,我们在许多农业地区看到了相当多的增长。”国际水稻研究所(International Rice Research Institute)是一个总部位于菲律宾的组织,它使用这种技术来命名水稻变体。vwin德赢ac米兰合作

“在这个阶段,我们不一定认为任何特定的细分市场是我们的目标。我们真正想做的是与人们合作,了解他们在各自领域的优势是什么”,以及DeepVariant如何最好地帮助他们,他说。

DePristo还讨论了SVAI,这是硅谷的一个程序员协作社区,旨在将人工智能引入计算生物学和生物技术领域,通常是通过黑客马拉松。例如,最近的一场黑客马拉松寻找一种方法来改进在BGISEQ-500仪器上对癌症基因组进行测序的变体。

DePristo说:“DeepVariant团队成员……将BGISEQ数据作为黑客马拉松的一部分对DeepVariant进行了重新训练,并在24小时内发布了一个从根本上改进的BGISEQ变量调用器。”“它展示了像DeepVariant这样的东西的可能性,如果你有更多的训练数据,它就会学会自我校正,这是非常令人兴奋的。”

虽然通过深度学习可以快速重新训练算法,但DePristo看到了未来的教育挑战。他说:“这是当你面对你还没有探索过的新数据类型时,但这不是社区中普遍认为的能力。”

“例如,我们如何让人们看到,如何在基因组学工作流程中最好地利用深度学习技术的能力?”DePristo很好奇。

“我们试图解释,你可以用这项技术做各种各样有趣的事情。”vwin德赢ac米兰合作

扫描

代谢表型与双相情感障碍患者抗抑郁治疗后的躁狂发作相关

《药物基因组学杂志》上的一项研究使用了5000多个个体的数据,揭示了代谢表型和双相情感障碍患者抗抑郁治疗后的躁狂发作之间的联系。

多祖先PRS基于乳腺癌风险对女性进行分层

在JCO的精准肿瘤学中,研究人员写道,他们的MA-PRS模型可以改善美国人群中的乳腺癌风险预测。

测序分析揭示不同治疗反应的CLL患者群体

牛津大学的研究人员对485名CLL患者进行了测序,以找到具有不同临床结果的组,他们在《自然·遗传学》上报道了这一结果。

按需基因疗法有望治疗癫痫

《科学》杂志上的一篇新论文描述了使用一种基于基因疗法的方法来降低神经元兴奋性,这抑制了小鼠模型的癫痫发作。
Baidu
map