跳到主要内容
溢价试验:

索取年度报价

统计设计仍然是蛋白质组学实验的难点

溢价

纽约(基因组网)——据几位领先的研究人员称,过去几年在改进蛋白质组学实验的统计设计方面已经取得了进展,但该领域仍然是该领域的一个症结。

他们说,小样本队列和使用不恰当的统计分析等问题使一些蛋白质组学研究的稳健性受到了质疑,这可能导致对报告结果的过度自信,以及未来的可重复性差。

美国东北大学副教授、临床蛋白质组学统计学专家Olga Vitek认为,问题的根源在于蛋白质组学研究人员未能从统计学角度彻底考虑实验设计。

她说:“人们所犯的错误是,他们没有真正考虑到这一部分,不仅是他们需要多少重复,而且是他们如何将实验目标转化为统计或分析目标。”“因为他们错过了最初的一步,他们经常会错过下一步,”也就是所需的复制数量。例如,她说,一个旨在无监督地发现重复之间相似性的实验不同于一个希望比较重复之间平均条件的实验,后者也不同于寻找预测性生物标志物的实验。

“不同的目标需要不同的(统计方法),不同的方法需要不同的样本量,”Vitek说。

她补充说,虽然许多蛋白质组学研究使用了适当的统计设计,但设计不良的研究并不少见。

“这一点仍然没有得到充分重视,”她说。“例如,我仍然看到人们做(主成分分析)的论文,他们说他们发现了生物标志物,这是荒谬的。或者他们(使用)t检验,他们有p值小的蛋白质,他们声称他们发现了生物标志物,这是完全错误的。”

Vitek说,如果不了解最适合特定实验的统计工具,就不可能确定需要多大的队列才能充分支持一项研究。

她指出,研究人员通常会试图纠正这种在后端缺乏计划的情况。

她说:“人们会说,‘好吧,让我收集一些数据,然后我会找到一个人来为我分析这些数据。“但到那时,已经太迟了。”

特别是在生物标志物发现工作方面,Vitek说她认为“大多数研究都没有足够的动力。”

这个问题源于一个基本事实,即虽然基于质谱的蛋白质组学实验能够测量数千种蛋白质,但它们的通量仍然相对较低,许多研究只研究几十个样本,而不是数百或数千个样本。另一个挑战,特别是在临床研究中,是将大量罕见或难以获得的样本集中在一起。

华盛顿大学副教授Michael MacCoss说:“你最终测量的东西越多,就会有越多的东西最终会随机改变,所以你需要为任何一种肽的显著性测量设置越来越高的阈值,但很多人都没有想到这一点。”

此外,MacCoss说,使用二元病例对照型设计来识别涉及特定扰动的蛋白质也存在一定的挑战。

他说:“当你开始做数学计算时,你会发现……你经常需要做很多(不同的)扰动,以表明你所看到的变化是否特定于你感兴趣的扰动。”“这种只看二进制条件的想法,我不是说你不能从中得到有用的数据,但你最终往往会得到比开始时更多的问题。”

“这是基因组学已经知道了一段时间的事情,”他补充说。“但我们在蛋白质组学中重新学习了它。”

瑞士联邦理工学院苏黎世分校(ETH)教授Ruedi Aebersold说:“在蛋白质组学中,许多,也许是大多数研究都不足,这是肯定的事实。”vwin德赢ac米兰合作

他说,这是蛋白质组学研究的“难题之一”。“(在动力不足的实验中)你很可能会因为一些混杂因素或随机波动而过拟合。”

他指出,他和他的同事们目前正在研究批量效应对蛋白质组学实验的影响,并发现一些动力不足的实验基本上反映了谁制备了样品以及样品如何或来自哪个设备的差异。

“如果你没有足够的数字,也没有在研究中考虑批量效应和其他混杂因素的可能性,你可能会完美地将两个组分开,比如病例和对照组,但这只是混杂因素的反映,”Aebersold说。

考虑到蛋白质组学研究和科学研究的难度,埃伯赛尔德说,他不太愿意说研究人员进行动力不足的实验是在“浪费时间”,但“如果你有10个病例和10个对照,你测量了数千种蛋白质,你想找到一个生物标志物,那基本上是行不通的。”

Aebersold说,学术界越来越意识到这一事实,但研究实践可能需要时间来改变,即使已经确定了一种方法的无效性。

他引用了蛋白质组学早期常用的2D凝胶工作流程的例子。研究人员将样品放在凝胶上,然后切割出感兴趣的点,用质谱仪进行分析。

一项研究由哈佛大学研究员Steven Gygi领导,当时他是Aebersold实验室的博士后,证明了这种方法本质上局限于大约两个数量级的动态范围,这意味着,Aebersold说,“你真的只浏览了[蛋白质组]的顶层。”

他说:“这很有启发性,因为这意味着,如果你想寻找低于两个数量级的东西,你永远也找不到。”

Aebersold说,尽管如此,在这项研究发表后,研究人员继续使用这种方法多年。“令人惊讶的是,如果你去参加HUPO或ASMS或任何蛋白质组学会议,那么多年来,人们仍然在用血浆做2D凝胶来寻找疾病的生物标志物。这根本行不通,因为每个人都能找到同样的50到80种蛋白质,你知道在这50到80种蛋白质中,不太可能有癌症的标记。但大量这样的研究已经完成,一张接一张。”

他说:“有时候,一个人做了一些事后看来根本没用的事情,这可能是普遍的事实,但如果你已经知道它不会起作用,那么就不应该这么做。”

Vitek说,其中一个问题是,在蛋白质组学研究人员的典型培训中,统计学只占了有限的一部分,而且在该领域与统计学专家的沟通和合作仍然不够。

她说:“从事机器学习或统计学的人对药物化学了解不多。”“了解药物化学的人,他们从来没有真正花太多时间思考(机器学习和统计学)。所以,我们需要的是在这些领域进行培训,或者创建跨学科团队,共同设计实验。”

剑桥大学系统生物学中心计算蛋白质组学部门负责人劳伦特·加托说:“我认为在几乎所有情况下,都可以归结为应用最先进的技术来完成手头的任务。”“如果科学家不能确定这种方法是什么,为什么要这样做,那么他们就有大问题了。在没有适当背景的情况下,想出一种分析数据的方法是注定要失败的。”

他补充说,从事蛋白质组学研究的生物统计学家和计算科学家已经为蛋白质组学研究开发了各种高质量的方法和软件包,“这是绝大多数(研究人员)应该使用的。”

然而,适当地使用这些开发的方法和软件程序仍然需要研究小组具有一定程度的专业知识。Gatto引用了生物分子资源设施协会蛋白质组信息学研究小组2015年研究的例子,该研究发现,一个团队的表现并不取决于他们使用什么方法或软件,而是取决于“他们对合理统计数据分析的理解和应用”。

Gatto表示,他相信该领域对统计数据的使用“正在改善,尽管速度缓慢”。他建议,推动进一步改善的一个方法是继续强调开放数据共享。

他说:“当人们不得不公开时,他们往往会对自己做什么以及如何做更加谨慎。”

其他可以用来鼓励更好的实验统计设计的压力点是资助机构和期刊。Aebersold认为,在某种程度上,这些机构已经在扮演这个角色。

他说:“如果你去美国国立卫生研究院(National Institutes of Health)或欧盟(EU),提出一个有10个对照和10个疾病样本的生物标志物项目,你永远不会得到这笔资金。”“你也不会把它发表在真正高端的期刊上。”

加州大学旧金山分校教授、该杂志主编Al Burlingame说分子与细胞蛋白质组学注意到MCP没有发表许多临床生物标志物类型的实验,其中样本队列大小是一个主要问题,该杂志确实对实验中的技术和生物重复数量有要求。

他说,在他的经验中,适当使用统计学的一个领域是越来越多的非蛋白质组学研究人员现在使用蛋白质组学工具。

他说:“我们向该杂志提交的论文越来越多,它们来自可能更具生物学意义的实验室,它们没有专家处理这些问题的记录。”所以这些通常是更有问题的,很多时候当我们进行审查时,人们不得不回去做更多的实验,或者做更多的重复,或者遵守他们在第一次尝试中可能遗漏的统计问题。”

也就是说,Burlingame说,他对这些蛋白质组学新实验室的工作质量感到惊讶。“新人可以分为两类:一类是非常认真地关注自己正在做的事情的人,另一类是试图快速发表作品的人,当然,我们会拒绝这些人。”

不过,Vitek说,许多期刊缺少能够确保实验符合标准的统计人员。她说,虽然这些期刊通常会联系统计学家作为审查过程的一部分,但“目前,没有足够的专家可以对(实验)设计发表评论。”“所以,有时质量差的手稿通过审稿,只是因为缺乏专家进行审稿,这种情况仍然存在。”

Vitek说,在制药等行业,情况要好一些,在这些行业,人们有强烈的动机不把钱浪费在不太可能重现的研究上。

“但在学术机构,情况有些不同,”她说。“人们说,‘好吧,我没有样品,我没有钱,一切都很贵。我明白你想让我做复制,但我有我的特殊情况。’”

Vitek承认,在资金限制或研究稀有生物样本的情况下,研究人员可能无法分析尽可能多的重复。

“我明白,对吧,”她说。“这并不意味着你应该停下来什么都不做,而是关于管理你可以合理地从这些数据中获得的期望。做三次重复还是可以的,你知道,做一些初步研究来产生假设。但是要知道这只是个假设,对吧?它变成了管理预期。”

扫描

研究发现,遗传疾病是婴儿死亡的未知原因

在JAMA Network Open上,Rady儿童医院的研究人员进行的一项测序分析发现,遗传疾病会导致婴儿死亡率。

发现胰腺微外显子参与葡萄糖稳态

根据一项新的自然代谢研究,胰岛中的微外显子似乎可以调节葡萄糖稳态。

竞争内源性RNA网络分析为缺血性中风提供了新的见解

BMC基因组学的研究人员研究了竞争性内源性RNA在缺血性中风中的作用。

在中国结束COVID - 19封锁后,没有发现新的SARS-CoV-2变体

中国研究人员在《柳叶刀》杂志上发表的一项分析发现,在取消封锁限制和病例急剧增加之后,中国没有出现新的SARS-CoV-2变种。
Baidu
map