纽约(基因组网)——根据一项新的分析,许多关于古人类DNA的研究可能受到参考偏差的影响,尽管这种偏差的影响尚不清楚。
当古代DNA测序读数(通常是碎片化的)与人类参考基因组对齐时,有一种趋势,即参考基因组中存在的等位基因被过度代表,而替代等位基因在古代比对中被忽视。
乌普萨拉大学的两名研究人员分析了古人类DNA研究中的参考偏差,并在一篇论文中报告预印本发布到BioRxiv本月早些时候,参考偏见很普遍。然而,尽管这种偏差可能会影响下游分析,但研究人员无法梳理出其影响的任何模式。
尽管如此,他们和其他人指出,这强调了注意参考偏差的必要性。
奥塔哥大学的博士后研究员安娜·高斯林(Anna Gosling)研究现代和古代太平洋人口的遗传变异,她告诉基因组网(GenomeWeb):“这实际上可能对所有这些古代DNA研究产生相当广泛的影响。”
正如高斯林所指出的,人类参考基因组只捕获了现代人类遗传变异的一部分,而古代人群有望拥有更高水平的多样性。这些不同的古代等位基因不太可能在现代参考基因组中被发现,这就导致了参考偏倚。
此外,古DNA研究中常见的样本碎片化和低覆盖率,以及随机采样的等位基因和伪单倍体数据的使用,可能会进一步放大其效果。Gosling指出,它对30到50个碱基对范围内的读取有特别的影响——研究人员通常认为这是真正的古代DNA的大小范围。
在他们的研究中,乌普萨拉大学的研究人员检查了已发表的古代DNA数据集中的参考偏差的普遍性。
他们重点分析了现代人类群体中已知多态位点的snp,然后研究了已发表的中高覆盖率古人类和古人类基因组(包括尼安德特人和丹尼索瓦人数据集)中被认为是杂合的snp。
如果一个位点是杂合的,研究人员推断,一个个体的DNA应该包含相同数量的参考等位基因和替代等位基因。然而,他们发现,当他们将他们的古代基因组映射到人类参考人时,他们调查的所有解剖学上的现代人的替代等位基因的平均比例低于预期的50%,这表明参考偏差。
他们指出,当对数据应用更严格的映射质量过滤器时,参考偏差略强,尽管他们指出,不使用过滤器可能会引入其他错误,例如微生物污染物。
尽管如此,他们指出,当不使用映射过滤器时,他们分析的尼安德特人和丹尼索瓦人基因组表现出对替代等位基因的偏向。他们说,这暗示着这些古人类的基因组中可能携带着现代人类参考基因组所没有捕捉到的变异。
研究人员指出,他们的分析还表明,参考偏倚的强度可能在基因组的不同区域有所不同。
石溪大学(Stony Brook University)助理教授克里希纳·维拉玛(Krishna Veeramah)指出,人类参考基因组是来自不同祖先背景的个体的马赛克。他说:“我们可能需要更好地了解……这种影响是否会因为你所研究的职位往往来自(非裔美国人或欧洲人)的区域而有所不同。”
研究人员还发现,正如他们预期的那样,较短的片段比较长的片段具有更强的参考偏差。
高斯林说,这意味着,在基于杂合度对reads较短样本的种群多样性进行估计时,“你在古代样本中得到的多样性可能比实际情况要少得多。”
虽然乌普萨拉大学的研究人员发现,参考偏差可能会影响下游分析,但他们发现的影响并不一致。高斯林说:“它们都对他们能够展示的东西产生了影响,但影响并不一致。”“所以这很有趣。”
为了衡量参考偏差如何影响群体亲和性的估计,乌普萨拉大学的研究人员为斯堪的纳维亚中石器时代的狩猎采集者sf12生成了四种不同版本的基因型——一种具有短读,一种具有长读,一种具有伪单倍体呼叫,一种具有二倍体呼叫——并使用D统计来测试这些与现代人群之间的亲和性,由Simons基因组多样性项目数据和基因分型的人类起源人群数据表示。总的来说,他们注意到与他们预期的偏差,这表明参考偏差对这些估计的影响。
但是,研究人员报告说,西蒙斯基因组多样性项目和基因分型的人类起源人群数据之间的偏差方向不同。总的来说,这表明不同的参考数据对偏倚有不同的影响。基于此,他们说,他们不能断定古代DNA论文在某个方向上有系统的偏见。相反,他们说偏差似乎是数据集和测试特定的。
Veeramah说:“很难得出结论——他们也没有真正得出结论——影响是什么。”
不过,他补充说,在已发表的分析中,由于参考偏差造成的任何差异都可能很小。他说,这并不是说研究人员会突然发现,尼安德特人向现代人类的渗透并没有发生。他说:“我认为,很明显,这件事发生了。”
高斯林表示了认同。她预测,减少参考偏差将使研究人员能够拼凑出更细致入微的变异图景。
有几种不同的策略可能能够解释参考偏差的影响。乌普萨拉的研究小组表明,两种涉及修改reads或引入第三种等位基因类型的映射后过滤方法可以减少(但不能消除)参考偏倚。
高斯林指出,这些方法可能并不适合日常使用,因为不同实验室的研究人员将依赖不同的参考文献,从而使实验室之间的比较变得困难。相反,她说需要新的方法。
她说:“除非我们有更多的计算人员参与其中,找出一些新的测绘方法,否则我认为这将是非常困难的。”“显然,很难量化这对我们正在做的分析有多大影响,因为我们不知道一开始是什么变化。”
Veeramah提出了更简单的方法:像第一篇尼安德特人的论文那样,映射到黑猩猩的基因组,或者参考两个等位基因。他还指出,其他研究小组在研究人类和尼安德特人时,一直在以多种方式解释参考偏差,比如制造祖先基因组。他还指出,研究非人类生物的研究人员果蝇也一直在努力解决这个问题,那里的研究人员一直依赖迭代映射方法。
但他说,所有这些都给这个过程增加了时间,目前还不清楚参考偏差效应是否比SNP确定偏差等其他问题更重要。
无论使用什么方法来解释参考偏差,Veeramah和Gosling都表示,对他们来说,在社区范围内采用它们很重要,这样它就可以被复制。
“这是一篇非常好的论文,让古代DNA专家开始思考我们的一些假设是什么,”高斯林补充道。