跳到主要内容
溢价试验:

索取年度报价

哈佛大学和英伟达团队开发深度学习方法以提高ATAC-Seq质量

溢价

芝加哥——来自哈佛大学干细胞与再生生物学系和计算机硬件制造商英伟达的研究人员开发了深度学习技术,该技术可以去除测序中的噪声,因此低细胞数、低覆盖率或低质量的ATAC-seq数据仍然可以使用。vwin德赢ac米兰合作

据最新发表的文章称,这款名为AtacWorks的软件甚至可以从单细胞研究中得出结果,其准确性与早期的方法相似,而早期的方法需要10倍的细胞数量研究自然通讯

ATAC-seq是使用测序检测转座酶可达染色质的缩写,它使用Tn5转座酶将测序适配器插入基因组的可达区域来测量开放染色质。

ATAC-seq广泛用于表观基因组学,并已发展到包括罕见细胞类型的单细胞表观基因组学分析。然而,该技术在检测可触及染vwin德赢ac米兰合作色质变化方面的有效性一直依赖于信噪比和测序深度,而单细胞研究对组织质量特别敏感。

来自哈佛大学和位于加州圣克拉拉的英伟达的研究人员转向深度学习来克服这些不足,因为同样的技术已经帮助消除了语音中的噪音,填补了数字图像中的空白。vwin德赢ac米兰合作

AtacWorks是建立在残差神经网络(ResNet)框架上的,该框架被广泛应用于图像分类和定位。在开发该软件时,英伟达将这种模式用于基因组学。

英伟达基因组团队的高级科学家、该论文的主要作者Avantika Lal在一次在线新闻发布会上表示:“我们采用了最初为成像开发的架构,但取而代之的是我们为它提供DNA测序数据。”哈佛大学教授杰森·布恩罗斯特罗,他开发了ATAC-seq方法2013年在斯坦福大学读研究生时,也被列为作者。

英伟达在其博客上声称,使用张量核图形处理器(gpu),通过这种计算模型进行全基因组推断只需不到30分钟,而传统的32个CPU核高性能计算系统则需要15小时。

“与之前的表观基因组深度学习方法不同,AtacWorks以碱基对分辨率去噪ATAC-seq信号,同时预测可访问的调控元件的基因组位置。自然通讯篇文章。

AtacWorks“去噪”低覆盖率和低质量的ATAC-seq信号,有效地将它们升级到更高的分辨率和更高的质量。该软件已经过训练,以预测在碱基对分辨率下染色质可访问性的覆盖轨迹,以及峰值呼叫。

有了这项技术,英伟vwin德赢ac米兰合作达在哈佛大学的合作者们能够识别出造血干细胞的两个罕见亚群,这两个亚群以前只能在淋巴细胞引物或红细胞引物细胞中获得。

“这揭示了血细胞发育的新机制,如果没有深度学习,我们是无法发现的,”Lai说。

自然通讯论文演示了AtacWorks如何提高下采样低覆盖率大块ATAC-seq数据的染色质可访问性信号的分辨率,并从甚至不属于深度学习训练集的细胞类型中去除噪声,因为它学习染色质可访问性的“可泛化”特征。

后一个特性允许研究人员分析聚合的单细胞ATAC-seq数据一次来自少量细胞。

英伟达-哈佛团队还能够调整AtacWorks,从低质量的ATAC-seq输入中对转录因子足迹和ChIP-seq峰值进行跨模态预测。

通过AtacWorks,研究人员使用四种类型的人类细胞(B细胞、自然杀伤细胞、CD4+和CD8+ T细胞)的大量ATAC-seq数据训练深度学习模型,对每一种细胞采样到5000万读的深度,以得出每种类型的干净的、高覆盖率的数据集。他们用MACS2 (ATAC-seq数据中经常使用的峰值调用器)识别峰值,然后对每个数据集的深度进行次采样,最低可达20万次读取,然后训练另一个计算机模型从覆盖率较低的信号中重建干净的数据集和峰值调用。

拉尔说:“ATAC-Seq使我们能够通过改变DNA的可及性来识别增加疾病风险的变异,它还可以告诉我们,我们身体中哪些特定类型的细胞受到这些变异的影响,以及这些DNA可及性的变化如何导致疾病。”

Lal在新闻发布会上说:“目前的ATAC-Seq分析方法通常需要来自数千或至少数百个细胞的信号聚合在一起,细胞越少,得到的信号就越嘈杂。”

测序的DNA数量越小,ATAC-Seq中信号的噪声越大,结果的准确性也越低。拉尔说:“识别这些可到达的区域变得更加困难,这限制了我们研究生物学的分辨率。”

在论文中,研究人员描述了AtacWorks如何从人类红细胞中获取噪音大的数据。

“现有的最先进的方法无法从中识别可访问的DNA,”拉尔在谈到输入MACS2的噪声信号时说。然而,AtacWorks精确地预测了基因组测试的每个位置的DNA可访问性,还识别了之前在如此低的深度被遗漏的可访问DNA的位点。

拉尔说:“这是我们研究DNA生物学分辨率的一个数量级的提高。”

研究人员还将他们的AtacWorks去噪技术应用于高通量的单细胞ATAC-seq数据。vwin德赢ac米兰合作他们说,这个过程提高了聚集的NK细胞的信号准确性和峰值调用。

研究人员写道:“尽管我们观察到任何数量的细胞的信号质量和峰值呼叫都有所改善,但1个和5个细胞样本的结果可能对下游生物分析来说太过嘈杂,这可能是由于用于训练的聚合数据没有捕捉到单细胞异质性。”

他们还测试了AtacWorks的转录因子足迹,这通常需要至少1亿次读取,以及从低输入的ATAC-seq预测ChIP-seq峰值。该论文称,尽管数据样本比之前的技术要小,但他们成功地实现了两者的高精度。

作者写道:“这些跨模式的预测表明,AtacWorks有潜力从最常用的表观基因组分析之一在单个细胞中生成多层信息,而无需额外成本。”“从同一个细胞中进行多次测量通常在实验上具有挑战性,所以这种方法可能在由于时间、试剂、样品可用性或生物可变性而无法进行多次ChIP-seq实验的情况下特别有用。”

他们还表示,该技术“可能广泛用于基因组学中的其他vwin德赢ac米兰合作深度学习应用,如DNase、MNase、ChIP-seq,以及最近开发的具有类似高通量单细胞适应性的CUT&RUN方法。”

AtacWorks是可以在GitHub上免费下载,以及通过英伟达GPU云(NGC)平台进行科学计算。Lal表示,该软件是免费的,但建议在Nvidia图形处理器上运行。

因为AtacWorks已经在GitHub上发布了一年,Lal说,在英伟达和哈佛的合作之外,AtacWorks确实有一个用户社区。然而,这篇论文代表了基于atacworks的研究的第一个公开版本。

“基于这些进展,我们预计AtacWorks将广泛提高表观基因组分析的效用,提供一个强大的平台来研究细胞异质性的调节回路,”论文总结道。

她说,论文的审稿人询问AtacWorks是否对任何类型的DNA序列都有效。她在新闻发布会上说:“我们可以利用现有的任何数据训练一个模型,然后将其应用到全新的生物样本上。”

她说,它的目标是计算生物学领域的任何人。

扫描

考虑猪器官移植

据《华尔街日报》报道,美国食品和药物管理局可能很快就会允许将猪器官移植到人体内的临床试验。

“Poo-Bank”提案

哈佛医学院的研究人员建议,人们应该在年轻时将粪便样本储存起来,以便以后患上与年龄有关的疾病时进行移植。

刺激再次发展

据《新科学家》报道,研究人员可能已经发现了大约60%体外受精胚胎停止发育的原因。

科学论文检查母乳细胞群,大脑皮层细胞多样性,密克罗尼西亚人口历史

本周的《科学》杂志:在母乳中发现了独特的细胞群,在大脑皮层中发现了100个不同的转录细胞群,等等。
Baidu
map