纽约——通过DNA元素百科全书(ENCODE)项目的第三阶段,研究人员已经在人类基因组中发现了数百万个额外的调控区域。
在十多篇论文中出现自然ENCODE的研究人员描述了他们为搜索人类和小鼠基因组中的功能元素而生成的近6000个额外数据集。
ENCODE项目在2003年宣布完成人类基因组序列后不久启动。该项目的第一阶段作为试点探索了1%的人类基因组,第二阶段扩展到整个基因组,并结合了基于测序的技术。第三阶段开始于2012年,包括更多的化验和细胞类型。
正如新出版物中所详细描述的那样,ENCODE的研究人员分析了大约500个细胞或组织样本——以前的迭代主要依赖于细胞系——并开发了顺式调控元件的注册表。他们还绘制了DNA可及性的地图,以及转录因子和其他蛋白质可能与基因组结合的位置。与此同时,ENCODE团队开发了基于网络的工具,使其他科学家能够可视化他们的数据。
“ENCODE 3中产生的数据极大地增加了我们对人类基因组的了解,”康涅狄格州立大学健康学院的Brenton Graveley在一份声明中说,他是其中一项研究的共同作者。“该项目为以前的数据类型(如DNA结合蛋白和染色质标记)和新数据类型(如远程DNA相互作用和蛋白质- rna相互作用)增加了极大的分辨率和清晰度。”
根据他们生成的5992个新的实验数据集,ENCODE项目的研究人员开发了一个包含926,535个人类候选顺式调控元件和339,815个小鼠候选顺式调控元件的注册表他们的旗舰自然纸.他们补充说,这比ENCODE第二阶段的结果增加了22%。候选元素可以被分类为增强子类、启动子类或仅ctcf类。ctcf占用元件可以是绝缘体、增强子阻滞剂或染色质环锚定元件。
其他ENCODE论文探索了基因组的组织。由Altius生物医学科学研究所的Wouter Meuleman领导的研究人员绘制了高分辨率的地图DNase I敏感部位基于700多个人类生物样本,索引360万dhs。与此同时,同样来自Altius的Jeff Vierstra和他的同事们也进行了研究高密度DNase I解理图哈德逊阿尔法生物技术研究所的克里斯托弗·帕特里奇和他的同事们vwin德赢ac米兰合作绘制了208种蛋白质-包括171个转录因子-使用ChIP-seq与人类基因组相互作用。
斯坦福大学的迈克尔·斯奈德和他的同事们也使用了ChIA-PET绘制染色质环在24种人类细胞类型中。他们发现,不同细胞类型的染色质环中有略多于四分之一的变异,这似乎与基因表达的变化有关。
与此同时,由加州大学圣地亚哥分校的Eric Van Nostrand和他的同事领导的研究人员主要研究rna结合蛋白它们也调节基因表达。他们转向了一种被称为eCLIP的方法,使用紫外线将RNA与与之结合的蛋白质交联。他们将这种方法应用于150个RNA结合蛋白,进一步定位了蛋白质与RNA结合的位置,并开始梳理它们可能的功能。
来自麻省理工学院的合著者克里斯托弗·伯奇在一份声明中说:“为什么它们在一个地方激活,在另一个地方抑制,这是一个长期以来的谜。”vwin德赢ac米兰合作“但拥有这组地图可能有助于研究人员弄清楚哪些蛋白质特征与每种活动模式相关。”
ENCODE项目还研究了小鼠的顺式调节元件,特别是在发育过程中,这可能会对人类的发展有更深的了解。例如,路德维希癌症研究所和其他地方的研究人员使用ChIP-seq和ATAC-seq的组合来生成一个小鼠染色质可及性图72个不同的组织阶段,而何宇鹏和索尔克生物研究所的同事分析甲基组小鼠九个发育阶段的12个组织或器官。总的来说,他们注意到CG甲基化在胎儿发育过程中普遍下降。他们进一步预测了超过46万个假定的发育组织特异性增强子。
此外,加州理工学院的研究人员领导的一个团队小鼠聚a - rna谱在小鼠胎儿发育的17个组织和器官中。随着单细胞和其他数据的添加,他们也开始预测哪些增强子在哪种细胞类型中活跃。
其他一些ENCODE论文出现在自然通讯而且自然方法报告了小鼠假基因的转录活性,一个ENCODE数据集的自定义注释在癌症方面的应用,以及一种方法预测活性增强子.
作为第三阶段的一部分,ENCODE项目的研究人员开发了一种名为SCREEN的专用浏览器。“ENCODE 3的一个主要优先任务是开发与更广泛的研究界共享ENCODE实验数据的方法,以帮助扩展我们对基因组功能的理解,”资助该项目的美国国家人类基因组研究所(National Human genome research Institute)所长埃里克·格林(Eric Green)在一份声明中说。“ENCODE 3搜索和可视化工具使这些数据可以访问,从而推动了开放科学的努力。”
在一个相关评论自然, RIKEN综合医学科学中心的Chung-Chau Hon和Piero Carninci指出,“他尚未完成的百科全书已经成为理解基因调控和疾病遗传易感性的典型工具。”
ENCODE的第四阶段是进一步扩展细胞类型和组织,包括单细胞转录组和额外的开放染色质分析,以更好地掌握这些细胞和组织类型的异质性,作为项目负责人中指出自然.
Hon和Carninci补充说,他们希望看到第四阶段包括一个系统的分析,以评估在这一阶段中编册的顺式调控元素是否真的发挥了它们所预测的作用。