加利福尼亚棕榈泉——结合不同类型的组学数据集可以让研究人员更全面地了解生物样本中发生了什么。
在今年的生物分子资源设施协会会议上的发言人说,这种多组学方法可以应用于一系列的研究,包括更好地理解人类肠道微生物群的发展,预测稳定的缺血性心脏病患者的结果,并深入了解个人健康。然而,他们指出,这种方法并非没有挑战。
纽约大学朗格尼健康中心的凯利·拉格尔斯在会议期间说:“多层数据确实可以帮助提供许多单独一种数据类型无法提供的洞见,以及生物学的疾病机制。”
例如,橡树岭国家实验室的Robert Hettich一直在结合组学工具来研究人类肠道微生物群产生的蛋白质。特别是,他和他的同事一直在用LC-MS/MS检测94名早产儿的粪便元蛋白质组。他们研究这个群体是因为当婴儿出生时,他们缺乏肠道微生物群,但他们在出生后的一两个星期内开始发展。
婴儿肠道微生物群的组成随着时间的推移而变化,但彼此之间也存在差异,包括两个兄弟姐妹的肠道微生物群。但婴儿粪便微生物群表达的许多蛋白质都参与了类似的代谢途径,这表明在功能水平上存在守恒。
同时,作为纽约大学缺血试验的一部分,Ruggles正在整合组学数据以识别分子特征,以帮助管理稳定缺血性心脏病患者。这项更广泛的试验招募了5000多名患者,但也开发了一个约1000名患者的全血DNA、RNA、血浆和血清样本仓库,可用于积累一系列组学数据集。到目前为止,她说他们已经生成了甲基化阵列和RNA-seq数据,并希望很快获得靶向蛋白质组学和代谢组学数据。
目前,稳定型缺血性心脏病患者是根据其临床特征进行分层的,但研究人员假设,以这种方式识别的分子标记可能更好地预测谁有心脏病发作或死亡的风险。她补充说:“如果我们找到风险最大的人,那么我们就可以真正针对正确的人群进行强化治疗。”
斯坦福大学的Tejaswini Mishra等其他研究人员正在添加额外的数据层,他在Michael Snyder的实验室工作。斯奈德实验室在2012年发表了一篇Synder的个人组学资料他不仅收集了基因组、蛋白质组和代谢组的数据,还收集了可穿戴设备和临床测试的数据。他们现在跟踪了100多人,收集了广泛的数据。
米什拉说,这样做的希望是生成一幅健康基线图,并观察当某人生病时它是如何变化的。“纵向剖面对了解个人疾病状态非常有价值,”她补充说。
也许还需要新的方法来处理这些数据集。例如,纽约大学的拉格尔斯和她的同事开发了一种名为BlackSheep的工具,用于异常值分析,她将其描述为一种替代差异表达分析的方法,用于有大量组学数据的大队列。同样,他们也在研究一种名为PhosphoDisco的工具,该工具可以将质谱仪数据中的磷酸化位点分解为共同调节的模块,然后将这些模块与各种激酶或临床变量的活性连接起来。
同样,美国国立卫生研究院的Ewy Mathé建立了一个名为代谢组学途径关系数据库(RaMP)的数据库,该数据库整合了来自京都基因和基因组百科全书、Reactome、WikiPathways和人类代谢组数据库数据集的生物途径,以实现途径级别的分析。
但仍有许多未知,特别是在蛋白质组学和代谢数据集中。橡树岭大学的Hettich指出,有很大一部分蛋白质没有注释。他说:“有些未知的蛋白质与健康或疾病密切相关,但它们没有名字。”“所以,总的来说,大多数做代谢图谱的人都把它们扔进了垃圾桶,这对我来说是一个很大的担忧。”
Mathé补充说,还有标准的问题,因为目前大多数标准都是特定于数据类型的。她说:“但当我们试图把这些数据放在一起时,最终需要大量的跑腿工作,才能使其工作并使两者兼容。”
她是两项旨在解决这些问题的努力的一部分。一个来自软件数据交换(SODA),它是北美代谢组学协会的一部分,正在开发一个可用于软件基准测试的维护软件和测试数据集的列表。另一种是通过代谢组学研究联盟(COMETS)分析,旨在标准化,例如,研究人员如何编码他们的变量或命名他们的代谢物,并将这些标准嵌入到联盟级别的软件研究人员正在使用。