纽约——由西奈山医院伊坎医学院的研究人员领导的一个团队开发了一种蛋白质基因组分析软件工具。
在一篇论文本月发表于分子和细胞蛋白质组学他们描述了使用名为iProFun的工具来分析由癌症基因组图谱(TCGA)和临床蛋白质组肿瘤分析联盟(CPTAC)生成的基因组、转录组、蛋白质组和磷蛋白质组卵巢癌数据,确定基因组改变与蛋白质和磷蛋白质变化之间的一些联系。
西奈山大学遗传学和基因组科学教授、该研究的资深作者王培(音译)说,将多个层次的组学数据结合起来的能力,为自信地检测DNA水平的变化与蛋白质或磷蛋白等其他分子变化之间的联系提供了更好的统计能力。
王也是CPTAC的研究员,伊坎医学院是该联盟的蛋白质基因组数据分析中心之一。CPTAC在过去十年中大量地进入了蛋白质基因组学领域,其当前阶段——该项目的第三次迭代——探索蛋白质基因组学数据可能如何帮助研究人员了解患者耐药性及其发展。
Wang指出,与单独观察基因突变或蛋白质表达等实验相比,分析来自同一样本的多层组学数据提供了许多潜在优势。
她说:“在以基因组为重点的研究中,人们通常尝试使用RNA分析来观察突变、拷贝数或功能域中的甲基化的影响。”
然而,Wang指出,RNA和蛋白质表达之间的相关性差异很大,蛋白质翻译后修饰等现象并没有反映在RNA水平上。
此外,她说,研究多重组学数据具有更强的统计能力,这有助于解决假阳性结果的问题
她说:“我认为我们提出的综合分析框架的主要好处是,通过将所有数据建模在一起,我们可以很好地减少误报。”
在以前的许多文献中,研究人员一直在进行成对相关性分析,例如,观察DNA拷贝数和蛋白质表达之间的联系,或DNA突变和蛋白质表达之间的联系。
“相反,我们正试图在这个框架中建模[DNA]拷贝数、突变和甲基化,这实际上让我们更全面地了解所有这些不同DNA级别事件的累积效应如何影响[蛋白质水平]功能,”王说。
西奈山大学助理教授、该研究的第一作者宋晓宇补充说,iProFun工具进行的综合分析使研究人员能够更充分地利用他们获得的样本。
她指出,使用更传统的成对分析,研究人员受到最小可用样本集大小的限制。
“如果,对于蛋白质组学数据,我们只有100个研究对象,但我们有500个[基因组]数据,那么我们将只能获得100个样本的[蛋白质组学]信息,”她说,并指出,使用iProFun软件,研究人员能够从每一种数据类型的全套样本中整合信息。
在MCP在这项研究中,研究人员观察了569个患者样本的mRNA表达,559个样本的DNA拷贝数改变,550个样本的DNA甲基化,206个样本的蛋白质组数据,69个样本的磷蛋白质组数据。
他们发现,DNA CNAs对RNA、蛋白质和磷蛋白水平的影响比DNA甲基化强得多,676个基因CNAs中有117个与RNA、蛋白质和磷蛋白水平显著相关;340个与RNA和蛋白质水平有关,但与磷蛋白水平无关,43个只与RNA水平有关。在甲基化的情况下,1103个位点中有一个与RNA、蛋白质和磷蛋白水平有关;27个与RNA和蛋白质表达有关,2个与RNA和磷蛋白水平有关,90个只与RNA水平有关,一个只与蛋白质水平有关。
使用网络分析来调查117个影响RNA、蛋白质和磷蛋白水平的cna,研究人员将其称为“级联”cna,他们确定致癌基因AKT1是连接到许多其他级联cna的关键节点。
“特别是对于卵巢癌,我们知道拷贝数事件是[疾病发展]的一个关键因素,”王说。“但有触发(拷贝数)事件和非触发事件,这就是为什么我们试图使用这种分析来识别具有较大功能后果的更重要事件。”
"AKT1是级联基因集的关键角色之一,这在文献中有很多支持,”她补充说。
Wang指出,研究结果也指向了潜在的药物靶点。研究人员确认了这些基因KRT8而且MAP2都是级联基因,就像AKT1他们写道,“是市场上已获批准的药物的可药物基因,具有治疗其他肿瘤的适应症。”
在甲基化方面,研究人员确定了该基因BIN2影响RNA、蛋白质和磷蛋白水平。他们指出,在TCGA研究中,该基因的上调与改善宫颈癌、子宫内膜癌、乳腺癌和卵巢癌的预后有关。MCP研究发现,在一组分析的卵巢癌样本中,基因的甲基化导致蛋白质水平降低。
“所以,这为卵巢癌的研究方向打开了一些假设,”王说。
她说,她和她的同事已经将该工具应用到包括肾癌和脑瘤在内的其他多种CPTAC数据集。
她说:“我们认为这是一个非常好的框架,可以利用这项大规模研究,使多组学数据可用。”