芝加哥- COVID-19大流行对未来公共卫生危机的一个持久影响可能是生物信息学技术的进步,有助于了解病毒变异的传播。vwin德赢ac米兰合作
例子包括印度塔塔咨询服务公司TCS研究部和莱斯大学的信息学工具开发人员,他们都在过去的基础上着眼未来,努力解决眼前的紧急情况。
一个关键的焦点是帮助研究人员分析每周炮制出来的大量基因组数据。通过一个估计在美国,自大流行开始以来,已有50多万篇关于COVID-19的科学论文以预印本形式发表或发布,其中许多论文聚焦于病毒基因组。
有了这些海量的数据,TCS研究中心的生物信息学家和计算生物学家开始创建新冠病毒基因组图谱。据项目负责人奈娜·蒂瓦里说,这项工作的核心是一种“计算成本低且直观”的工具,可扩展到提供大量基因组序列集合的可视化。
Tawari在上个月的分子生物学虚拟智能系统和欧洲计算生物学会议(ISMB/ECCB)上介绍了该可视化工具和基因组图谱的初步工作。
“它避免了昂贵的多序列比对和系统发育计算,”Tiwari说。“它可以在没有太多计算负担的情况下合并新的序列,并且它可以支持基于感兴趣的基因组区域的可视化。”
Tiwari称这个尚未命名的软件工具是“快速、廉价的方法,它可以有效地提取菌株的不同层次的特征,并使用计算嵌入来考虑菌株之间的局部相似性。”
该技术通vwin德赢ac米兰合作过一种被TCS研究团队称为“变体包”的方法在数据集中寻找“有意义的集群”。女子告诉GenomeWeb这是受视觉词包嵌入的启发,它在计算机视觉应用中很常见,它本身是基于自然语言处理中的一种叫做词包的技术。
“变量包”是变量集群的集合,通过低维的序列数据嵌入为可视化引擎提供信息。
研究人员从GISAID存储库中获取了SARS-CoV-2序列的FASTA文件和相关元数据。“在可视化数据点的同时,我们使用颜色编码……来合并元数据信息。这有助于在画布中呈现出数据的空间、时间和分支级别的演化,”Tiwari在由国际计算生物学学会主办的会议上说。
GISAID数据主要包含2021年1月之前获得的序列,尽管研究人员对B.1.617 (Delta)变种约两个月的序列进行了一些可视化,直到3月才被识别出来。
塔塔研究人员在一台标准台式电脑上进行了计算和可视化。Tiwari说,最耗时的部分是将候选菌株与参考序列进行比对,这是一个一次性的预处理步骤,对一个包含近26万个序列的数据集来说,大约需要12个小时。
在ISMB/ECCB上提交的初步数据表明,TCS可视化技术成功地捕获了序列差异和聚类,并绘制了病毒的时间和进化支级演化图。蒂瓦里说,一份包含更广泛实验的完整手稿将很快提交给一家同行评审期刊。
根据Tiwari的说法,第一次迭代依赖于简单的聚类来识别“变体包”。她说,该技术能够管理更复杂的技术,如vwin德赢ac米兰合作同时处理序列数据和元数据。
她在电子邮件中说:“我们相信,我们的方法可能成为分析大量基因组的有价值的可视化辅助工具,包括宏基因组和新冠病毒数据集以外的其他泛基因组。”
蒂瓦里解释说,她和她的同事并没有试图识别特定的突变。她说:“我们工作的目标是为分析大量基因组序列提供一种廉价而简单的视觉辅助。”“这些可视化可以补充其他更深入的分析方法,如标准的基于系统发育的方法,这涉及到大型数据集的计算。”
地图集还不能下载,但蒂瓦里说,她和她的同事正在创建一个存储库,以便其他人可以访问TCS研究的可视化结果。
通过可视化等技术,莱斯大学正在与Signature Science合作,为COVID-19调整现有的开源对齐和可视化工具Harvest套件,这是理解新兴的SARS-CoV-2数据集的另一种方法。
赖斯大学与美国疾病控制和预防中心签订了一份为期12个月、价值63万美元的合同,该合同于6月底开始,目的是开发一个名为Harvest variables的软件版本,用于跟踪SARS-CoV-2的变体。休斯顿学院计算微生物取证专家Todd Treangen的研究实验室将其中近25万美元用于将生物鉴定和其他服务分包给位于德克萨斯州奥斯汀的西南研究所的子公司SigSci。
Harvest软件起源于近十年前Treangen参与的一项合作,当时他正在与美国国土安全部的国家生物防御对抗中心合作。该项目的合作者包括Adam Phillippy,他现在是国家人类基因组研究所生物信息学的负责人。
Harvest软件套件诞生于2012年,当时该小组发现其他比对软件一次处理约100个微生物基因组太慢。Harvest帮助Treangen和他的同事将基因组从数百扩展到数千甚至数万。
该套件包括一个名为Parsnp的校准器,以及一个名为Gingr的图形用户界面,用于查看变体和系统发生树。它还有一个名为Harvest Tools的组件,Treangen称之为“文件转换的瑞士军刀”。
一个2014纸在基因组生物学描述了Harvest如何在早期对齐和可视化软件的基础上进行改进。特雷根说,事实证明,这项工作的一个教程用例是季节性感冒冠状病毒。
特雷根说,当COVID-19大流行袭来时,他的思维回到了早期的冠状病毒例子。这一次,他必须将Harvest的基因组一次从数万个扩展到100万个或更多。他说:“这是我想去疾控中心申请这个机会的动机。”
他说,除了增强Harvest的早期版本外,开发人员还增加了新的功能,最显著的是检测不同主机之间的SARS-CoV-2变异的能力。
在一个纸今年早些时候出版的基因组研究特雷根和同事们发现,感染者体内约5%至10%的SARS-CoV-2基因组具有与共识序列不同的变体。
据Treangen说,这种低频变异可能不会在人与人之间传播,但它可以表明一个人如何对抗感染,这可以为测试、治疗和疫苗开发提供信息。这些信息还可能提供有关可能演变成担忧变体的突变类型的线索。
Harvest最初的设计目的是探索单个基因组。针对COVID-19时代的一项更新在多达10亿份病毒基因组拷贝中添加了低频变异信息。
“没有人真正跟踪这些信息,”特雷根说。“文件很大,计算成本很高。”
分析工具通常将大量的副本压缩为一个,以节省磁盘空间和计算时间,但这排除了低频变量的信息。这就是SigSci的用武之地。
特雷根说:“你必须找到一种聪明的方法,不显示重复的信息,只突出一个人内部音符的低频变化,而不是创造一堆可能掩盖其他重要信息的额外信息。”
SigSci将其生物清洗经验和专业知识引入到项目中。该公司已经从医学文献中建立了一个数据库,Harvest可以快速地与感兴趣的突变进行交叉参照。
由于与SARS-CoV-2相关的论文仍在以惊人的速度激增,赖斯大学Treangen团队的一名学生正在研究结合自然语言处理技术来挖掘白宫的COVID-19开放研究数据集,并提出结果,以加速SigSci生物馆长的工作。
开发人员正在构建这些增强功能,使Harvest能够轻松适应未来的生物威胁。
特雷根说,在更新的早期迭代中,Harvest可以显示冠状病毒刺突蛋白的突变,以及世界上特定地区某些变体的流行情况。他说:“没有任何东西会限制它应用于其他病毒。”