跳到主要内容
溢价试验:

索取年度报价

贝勒研究人员开发了TCGA、CPTAC数据集分析工具

溢价

纽约(GenomeWeb) -贝勒医学院的研究人员开发了一个多组学数据库和分析工具,用于探索来自癌症基因组图谱(TCGA)和临床蛋白质组学肿瘤分析联盟(CPTAC)的数据。

该资源名为LinkedOmics,目前包含了涉及32种不同癌症类型的11158名患者的基因组、转录组、蛋白质组和临床数据,包含超过10亿个数据点。它还包括三个分析模块,允许研究人员探索分子和临床属性之间的关联在和跨癌症队列,并将这些关联置于细胞通路和网络的背景下。

详细的在一篇论文上月发表于核酸的研究BCM教授、该研究的资深作者张兵说,该资源是第一个将基于关联的查询工具与TCGA和CPTAC数据集以基于web的用户友好界面集成在一起的资源。

他指出,迄今为止,大部分围绕TCGA和CPTAC数据的信息学工作都集中在处理原始测序和质谱仪数据,以便普通生物学家可以访问这些数据,并建立工具来查询感兴趣的特定分析物。

他说,最近他收到了一些同事的询问,他们对这些数据集中不同类型数据之间的关联感兴趣。

“例如,他们对生存这样的表现型感兴趣,他们想知道哪些基因和蛋白质与生存相关,”张说。“或者他们对一个突变感兴趣,他们想知道与该突变相关的下游蛋白质组变化是什么。”

“每个人都想问这类问题,我们认为这些关联问题是许多生物学研究的基础,”他补充说。“但对于TCGA和CPTAC数据集,没有现成的工具可以让生物学家轻松得到这些答案。”

当然,研究人员可以下载TCGA或CPTAC数据集,并使用现有的软件进行差异表达分析或通路分析,张说,但是,这需要一定水平的专业知识,不是所有想要探索这些数据集的实验室都可以获得的。

他说:“我认为这里的主要进步是,我们将数据和工具放在一个非常用户友好的界面上。”

探索数据集的一个挑战是其中包含的大量数据类型。例如,TCGA数据集包括所分析样本的突变、拷贝数改变、甲基化、mRNA表达、miRNA表达和反相蛋白阵列数据,以及临床信息,包括总生存时间、肿瘤部位、年龄、组织学类型、淋巴浸润状态、淋巴结病理状态、原发肿瘤病理扩散、肿瘤分期和血管浸润状态。TCGA样本的一个子集也作为CPTAC项目的一部分进行了分析,对于这些样本,可以获得基于质谱的蛋白质组学、磷蛋白质组学和糖蛋白质组学数据。

LinkedOmics资源允许研究人员使用三个模块分析这些数据。第一个叫做LinkFinder,它允许用户探索一个特定癌症队列的分子或临床测量与所有其他测量之间的关联。例如,作者指出,研究人员可能会在乳腺癌中观察ERBB2扩增和蛋白质磷酸化水平之间的关系。

第二个模块称为LinkCompare,它允许比较LinkFinder中识别的关联。研究人员可以比较同一数据集中识别的不同关联,或者不同数据集中识别的相同关联。例如,作者写道,用户可以将结直肠癌中与KRAS突变相关的蛋白质与同一疾病中与BRAF突变相关的蛋白质进行比较。或者,他们可能会研究与几种不同癌症生存相关的基因,或者在卵巢癌拷贝数数据和卵巢癌蛋白质组学数据中研究与生存相关的分子。

第三个模块,LinkInterpreter,使用基因集和途径分析,将前两个模块中识别的关联放入生物环境中。在这项分析中,它使用了来自KEGG、Panther、Reactome和WikiPathways数据库的功能数据,以及蛋白质-蛋白质相互作用、转录因子-靶标、mirna -靶标和激酶-靶标数据。

核酸的研究在这项研究中,Zhang和他的同事提供了该工具的五个案例研究,用它来观察RB1突变对膀胱癌mRNA表达的影响和HER2扩增对乳腺癌蛋白磷酸化的影响;确定与卵巢癌预后不良相关的蛋白质特征;识别与12种不同癌症类型的存活相关的基因表达特征;并将通过12种癌症基因表达分析发现的标记物APCDD1L与肿瘤侵袭性和侵袭性联系起来。

张说,他和他的同事已经开始收到来自外部研究人员的请求,他们希望将自己的多组学数据集添加到该资源中,他们已经从BCM合作者那里添加了两个新的数据集。

最终,张说,他希望未来外部研究人员能够独立上传他们的数据,但他指出,在这方面,质量控制仍然是一个挑战。

他说:“我们还不想让每个人都上传他们的数据,因为我们想确保在这个阶段,所有的数据都经过了仔细的注释。”“实际上,我们甚至在TCGA数据上花了很多时间,特别是在临床部分,我们必须清理它,使其标准化。”

Zhang和他的同事们现在特别感兴趣的是添加包含药物敏感性信息的数据集,他说,比如从细胞系实验或患者来源的异种移植中生成的数据集。

他说:“TCGA数据的一个局限性是我们真的没有很多治疗反应类型的信息。”“但如果我们能获得带有治疗信息的细胞系或PDX数据,那将增加很多价值。”

除了扩大数据库,研究人员还在努力扩大其分析能力。

“目前,相关研究是基于单变量分析,”张说。“因此,我们当然希望实现更复杂的统计工具,以支持多变量分析,并可能添加更多的机器学习组件。”

扫描

研究人员为数十种与疾病相关的暴露开发了多基因风险评分

根据来自两大人群队列的遗传数据和此前全基因组关联研究的汇总统计数据,研究人员在《美国人类遗传学杂志》上得出了27个暴露多基因风险评分。

美国调查数据表明,祖先检测在意识和使用基因检测意识方面领先

尽管在一项遗传学医学研究中,大约四分之三的受访个体报告了对基因检测的认识,但这种检测的使用较低,且随收入、祖先和病史的不同而不同。

珊瑚基因组导致在其他非模型动物中发现的替代氨基酸途径

研究人员在《科学进展》杂志上报告称,在肩孔虫基因组中发现的另一种半胱氨酸生物合成途径随后在非哺乳动物、线虫或节肢动物的序列中出现。

转基因蚊子可防止疟疾传播

研究人员在《科学进展》杂志上报告说,一种基因驱动方法可以用来使蚊子无法传播疟疾。
Baidu
map