纽约——一个国际研究小组利用统计和计算模型,从几百个种群的几千个基因组序列中提取数据,整理出一个包含现代和古代人类的族谱。
当他们报道在科学周四,研究人员使用非参数树记录方法,可以用来自当代人的全基因组序列,以及高质量的古代基因组来理清、填充和解释祖先通路数据,这有助于将关系置于时间背景中。
“我们将引入统计和计算方法来推断现代和古代样本的统一谱系,通过计算机模拟和实证数据分析的混合验证这些方法,并应用这些方法来揭示人类多样性和进化的特征,”牛津大学大数据研究所的通信和共同资深作者吉尔·麦克维安及其同事写道。
在收集了来自1000基因组计划、人类基因组多样性计划和西蒙斯基因组多样性计划的3600多个现代全基因组序列,以及8个高质量的古人类或古人类素基因组序列和来自古代样本的近3600个额外发表的序列后,该团队确定了近2700万个祖先单倍型片段,并为分析中所代表的215个人类种群的约2.31亿个祖先谱系提供了线索。
他们解释说:“我们使用的基本概念是,所有曾经生活过的人类的祖先关系可以用一个单一的家谱或树序列来描述,之所以这样命名,是因为它编码了在基因组的每个点上连接个体的树序列。”“人类的这棵树序列非常复杂,但对其结构的估计是整合不同数据集的有力手段,可以更好地了解人类基因多样性。”
除了对人类种群之间以及人类与古人类之间关系的新观点外,该团队还对过去的种群规模和地理模式、古代混合事件、频繁的人类突变以及在人类基因组集合中发现的常见测序或基因分型错误进行了了解。
作者指出,虽然目前的方法依赖于分阶段基因组序列的可用性,但未来的进展有望使这种系谱分析应用于更大的基因组数据集成为可能。
他们写道:“这项工作中提出的统一系谱为全面理解人类基因组多样性(包括现代和古代样本)奠定了基础,这使得从改善基因组解释到破译我们最早的根等各种应用成为可能。”“尽管建立每个人的家谱需要做很多工作,但这里提出的方法为这一基本任务提供了解决方案。”
从相应的角度来看文章在科学伦敦大学学院遗传学研究人员说没有参与这项研究的Jasmin Rees和Aida Andrés指出,这项工作“无疑将证明对那些研究人类进化的人是有用的。”
他们写道:“树木记录方法的力量和分辨率有望有助于澄清人类和其他物种的进化史。”“推断进化历史的最有力的方法很可能在这些方法中有坚实的基础。”