这是四篇文章中的第三篇,调查了领先的蛋白质组学研究人员在2010年代蛋白质组学中最显著的成就。可以找到第1部分在这里,第二部分在这里,及第4部分在这里.
在过去的10年里,质谱平台的速度和吞吐量的进步导致了蛋白质组学实验产生的数据量的巨大增长。
不过,数据本身并不是特别有用。随着一系列仪器的进步,生物信息学的发展在过去十年中改变了蛋白质组学。
数据独立采集质谱的兴起巧妙地说明了这一事实。虽然DIA的实施需要仪器速度的飞跃,但它也需要信息创新,DIA软件开发是整个2010年代的主要重点领域。
加州大学戴维斯分校蛋白质组学核心负责人布雷特·菲尼(Brett Phinney)选择了一个最近的DIA方法由华盛顿大学的Michael MacCoss和他的同事们开发的,被他选为十年来最重要的蛋白质组学创新,并补充说它产生了“我在10年内看到的一些最令人兴奋的数据”。
传统的DIA方法使用初始数据依赖采集质谱仪来生成光谱库。然后,通过将DIA数据中的肽片段模式和保留时间与dda生成的光谱库相匹配来分析随后的DIA运行。
然而,将保留时间和碎片模式从一个平台转移到另一个平台是具有挑战性的,这意味着研究人员经常需要为每个实验生成新的光谱库。此外,DIA分析仅限于用于构建库的DDA运行中检测到的任何肽。
MacCoss团队的方法使用DIA数据构建由峰形状和保留时间组成的离子色谱库,可用于将光谱库校准到特定的质谱和色谱系统,从而实现有效的光谱库共享。在对人类和酵母细胞裂解物的分析中,他们发现,与传统的基于光谱库的DIA方法相比,这种方法可使所识别的肽增加20%至25%。
MacCoss自己强调了其他几份出版物,他说这些出版物在过去十年中对DIA信息学的发展至关重要2012年的论文发表在分子与细胞蛋白质组学由苏黎世联邦理工学院教授Ruedi Aebersold和他在瑞士的同事们最初制定了SWATH DIA战略,这是第一个获得广泛采用的DIA方法。
他说,同样有影响力的还有2016年的研究德国美因茨大学的研究人员提出了一种名为LFQBench的工具,用于对不同DIA软件包的性能进行基准测试。
MacCoss说,那篇论文代表了社区对当时传播的各种不同DIA方法进行基准测试的第一次努力。
他还引用了他实验室的两篇论文,其中一篇出版于2013年另一个2019年,提出了使用多路或重叠隔离窗口的软件,以提高前驱体的选择性,从而提高DIA实验的灵敏度。
深度学习和机器学习
Phinney还指出了深度学习对数据分析的重要性,这与其他几位受访者的评论相呼应,他们认为深度学习或机器学习的出现是过去十年蛋白质组学的关键发展。
VIB-UGent医疗生物技术中心计算组学和系统生物学组组长Lennart Martens说:“在过去10年里,让我感到革命性的一件事是机器学习在蛋白质组学数据分析中的认真应用。”vwin德赢ac米兰合作
他给出了他对这项技术的热情的三个原因,第一个他称之为“无耻的偏见”,基于他的实验室在过去十年中稳步研vwin德赢ac米兰合作究这种方法的事实。
“第二个原因是这些方法对实验条件和仪器的适应性,”他说。“这很重要,因为蛋白质组学作为一个技术驱动的领域,一直专注于最大限度地利用仪器可以获取的vwin德赢ac米兰合作数据,这需要理解和预测这些仪器中分析物的行为。而这正是机器学习方法的亮点所在。”
他补充说:“目前,在老式的手工识别评分功能和新的机器学习评分功能之间存在着一场隐藏的战斗,但已经很明显,机器学习系统将赢得这场比赛。”
最后,马滕斯指出,“蛋白质组学可能在未来十年发生巨大变化”,甚至可能“在更少或更大的程度上放弃质谱仪作为首选仪器”。
他说:“这将改变我们做蛋白质组学的方式,但它不会改变对自适应的、基于机器学习的算法的需求,以处理这种新的蛋白质测序方法产生的数据。”“如果有什么不同的话,这些新方法将需要更多地依赖机器学习方法。”
事实上,新兴的蛋白质分析方法,如基于纳米孔的蛋白质测序,通常使用机器学习来识别分析物。例如,去年以色列理工学院的研究人员vwin德赢ac米兰合作发表基于纳米孔的蛋白质传感模拟表明,纳米孔测量与深度学习数据分析相结合可以实现蛋白质组规模的研究。
这与加州大学圣地亚哥分校和圣母大学研究人员2017年的研究相呼应同样发现对纳米孔蛋白质数据的机器学习分析可以实现大规模的蛋白质组学研究。
慕尼黑工业大学(TUM)蛋白质组学和生物分析学教授Bernhard Küster也强调了机器学习是一项关键的发展,并指出他认为这种技术“将以一种深刻的方式改变蛋白质组学信息学的面貌,而且很快就会改变。”vwin德赢ac米兰合作
今年4月,Küster和他的同事们提出了一个名为Prosit的软件包,该软件包使用深度学习来改进实验生成的肽光谱与用于进行蛋白质鉴定的数据库中包含的理论光谱的匹配。
在一个典型的蛋白质组学实验中,多肽被碎片化以产生一组片段离子,从中产生质谱。然后将这些实验光谱与理论光谱数据库相匹配,使研究人员能够识别样品中的肽,并最终识别蛋白质。
解释这些光谱需要了解特定的肽是如何分解的,虽然研究人员对这一过程有大致的了解和预测能力,但预测在何种强度水平上会产生什么离子仍然是一个挑战。因此,许多匹配肽谱的软件工具假设所有可能的肽离子都是同样可能产生的。
深度学习方法提供了可能性改进的肽谱匹配通过允许研究人员训练软件,以更好地理解特定条件下特定肽的碎片模式。
慕尼黑马克斯·普朗克生物化学研究所和Verily的研究人员几乎同时发布了一个类似的基于深度学习的软件包,名为DeepMass:Prism,该软件包已被纳入马克斯·普朗克研究员Jürgen Cox开发的MaxQuant蛋白质组学软件包中。
此外,2017年,中国科学院的研究人员领导的团队发表了一篇论文在分析化学2013年,根特大学(Ghent University)的研究人员(包括Martens)开发了一种基于机器学习的工具(MS2PIP),用于预测肽离子片段强度最新更新四月出版。
数据共享工作
系统生物学研究所(Institute for Systems Biology)蛋白质组学主任罗伯特·莫里茨(Robert Moritz)的观点更开阔,他说,在他看来,过去十年蛋白质组学最重要的发展不是特定的技术或突破,而是“蛋白质组学社区的聚集,共享、辩论和重用数据,并最终将这些数据存入大型可访问数据库。”
他说:“各种蛋白质组学地图集和ProteomeXchange(联盟)等努力推动了该领域的发展,并允许开发越来越多的分析数据的方法,并为这些数据提供高统计验证,使社区共享成为过去十年中最重要的发展。”
密歇根大学人类遗传学教授Gilbert Omenn同样将数据共享作为一项关键发展,强调了ProteomeXchange Consortium以及PeptideAtlas和NextProt资源,以及他们重新分析“所有公开可用的人类蛋白质组学质谱数据集,以及急需的可靠检测和管理指南”的工作。
在过去十年中,蛋白质组学数据共享的戏剧性传播可能更值得注意,因为这十年开始时,人们担心大型蛋白质组学数据存储库的可行性和可持续性。具体来说,主要的资源之一,密歇根大学的Tranche资源库,由于缺乏资金,已经在2010年底开始削减其活动。
情况已经变得非常不稳定,以至于杂志分子与细胞蛋白质组学搁置了所有论文都要提交原始质谱仪数据的规定。
到2015年,蛋白质组学数据存储社区已经足够稳定MCP恢复原始数据要求欧洲生物信息学研究所的蛋白质组鉴定数据库PRIDE和加州大学圣地亚哥分校的海量储存库等资源填补了空白。此外,ProteomeXchange财团它于2011年正式推出,提供了一个单一的框架和基础设施,研究人员可以通过该框架和基础设施访问主要存储库中的数据,提高了这些数据库之间的协调能力。
对于西北大学教授Neil Kelleher来说,这十年的关键进步可能是一个更基础的进步——用于评估质谱实验中肽分配有效性的错误发现率估计的改进。
他说:“每个人都想领先,但为运营设定一个良好的基线,对于该领域之外的人来说至关重要,因为他们可以接受并重视我们所热爱的领域的产出。”“这不是最令人兴奋的问题,但在2000年代出现了一些问题,在2010年代,我们基本上解决了这些问题。”