芝加哥(GenomeWeb)——为了整合更多类型的数据,纽约基因组中心发布了其基因组数据可视化工具的新版本节拍器它支持RNA数据,使研究人员不仅可以看到个人和患者群体的基因组变异,还可以看到基因表达。
6月底发布的更新还提供了并排队列比较工具,并支持基因组参考联盟的人类参考基因组的第38和第37个构建。NYGC的数据可视化设计师Christian Stolte表示,其他一些变化使得MetroNome更有可能集成基因型和表现型数据。
在幕后,开发人员正在积极地添加来自基因型-组织表达(GTEx)项目的数据,以便MetroNome用户能够利用eQTL数据集。斯托尔特说:“这基本上建立了基因组变异和基因表达之间的联系。”
Stolte说:“(创建MetroNome)的一个动机是在表型的背景下显示基因组数据。”“另一件事是,我们想让尽可能多的科学家接触到所有这些数据。”
NYGC相信它可以通过MetroNome网站上的用户界面实现后一个目标。“人们不需要编写任何代码。没有软件需要安装,”Stolte说。
该机构已经开发MetroNome大约两年了,从去年开始就有了专门的URL。“然而,我们并没有进行广泛的广告宣传,因为我们仍在努力添加功能。现在,我们觉得它已经到了非常有用的时候了。”
他的老板,NYGC信息学主管托比·布鲁姆(Toby Bloom)一直想创建一个数据仓库和平台,将表现型和基因型连接起来。2015年Stolte加入时,他建议使用数据可视化,而不仅仅是提供一个应用程序编程接口,以便使信息和工具更容易访问。
MetroNome在图中显示表型,试图显示尽可能多的信息,对所有可以用数字表示的变量(包括年龄、体重和身高)应用一种称为并行坐标的技术。
Stolte解释道:“对于每个属性,你都画一个垂直轴。“对于每个病人,你可以在坐标轴上找到一个点,在那里你可以绘制出这个人的价值。”
接下来,系统将这些点连接起来,画一条横贯每个垂直轴的线,形成Stolte所说的“线网”,显示关系,帮助研究人员识别集群和趋势。
分类属性,包括性别、种族和癌症分期,都是用一种叫做并行集的技术处理的。斯托尔特说:“基本上,你把每个属性细分成线或线段,这些线或线段与归入该类别的个体比例成比例。”比如按性别划分的60-40。
他说:“我们可以把不同维度之间的联系画成平行四边形,这样就可以显示属性的组合。”通过并行坐标和并行集,用户可以移动任何轴,并排比较各种属性。
他说:“当你点击其中的一行时,它就会成为(用户界面)中显示的所有数据的过滤器。”“例如,这些患者的数字属性是什么?这些个体的基因组中有哪些变异?”
例如,MetroNome可以用基因图绘制一条底部有基因组坐标的轴,标注内含子和外显子。顶部的一个单独的轴显示了蛋白质的转录。
Stolte说:“在蛋白质图上,我们显示了来自Pfam(数据库)的注释功能域,我们绘制了外显子和这些功能域之间的连接,这样你就可以看到一个如何映射到另一个。”使用RNA数据,用户可以调出基因样本矩阵的热图,按组织来源排序。
MetroNome自两年前推出以来,主要用户一直是nyga主办的渐冻症协会(ALS Consortium),该协会由来自世界各地的约100名肌萎缩性侧索硬化症研究人员组成。MetroNome还与弗雷德·哈钦森癌症研究中心的合作者合作,该中心追踪有多少患有巴雷特食道的患者发展为食道癌。
对于渐冻症,开发小组创建了一个图表,显示神经轴的基因表达。斯托尔特说:“根据特定基因的基因表达增加或减少,大脑的不同区域会被着色。”
MetroNome集成了来自公共数据集的数据,包括来自1000个基因组计划、癌症基因组图谱以及即将到来的GTEx的数据。这些存储库与表型信息有不同级别的集成。
“对于1000个基因组来说,它主要是群体特异性的。对于TCGA,那里有更多的医疗信息。至于肌萎缩性侧索硬化症的数据,它是由项目收集的所有信息,”Stolte解释道。
肌萎缩性侧索硬化症的数据确实缺乏来自健康在世患者对照组的RNA样本。斯托尔特打趣道:“人们不喜欢自己的大脑被切开。”ALS患者的RNA来自大脑解剖。
NYGC计划在某个时候将MetroNome与电子健康记录集成。“当然,协调所有这些数据是一个巨大的挑战,”Stolte说。NYGC还积极与人类表型本体合作,为ALS建立一套标准术语。
其他情况需要大量的策划。Stolte说:“你必须将术语从一个数据源映射到另一个数据源,并在必要时尝试转换值或重新计算它们。”在美国,HIPAA要求通过重新计算出生后天数或确诊后天数来剔除日期。
外部用户现在可以将自己的临床数据输入到MetroNome中,但这是一个手动的过程。
斯托尔特说:“未来,我们将致力于一种更自动化的程序,让你可以直接上传数据。”不过他也承认,这对大型数据集来说可能不切实际。他说:“我们减少数据量的方法之一是,我们要求人们向我们发送VCF文件,而不是原始的测序数据。”这将文件的大小减少了大约1000。