纽约- - - - - -根据一项新的研究,基于阵列的基因分型之后再加上植入,它能在多大程度上模拟全基因组测序结果取决于参考面板、基因型阵列、样本祖先以及变异在基因组中的位置等因素。
虽然全基因组测序已经变得越来越便宜,但它仍然过于昂贵,无法用于大型研究,这导致研究人员将基于阵列的基因分型与归责相结合。通过将样本的单倍型与测序的单倍型参考面板进行比较,他们可以推断出样本可能具有哪些变异,即使它们不包括在基因分型数组中。
来自密歇根大学和其他地方的研究人员现在已经检验了这种方法反映深度全基因组测序的效果。为此,他们将归责结果与四项研究的全基因组测序数据进行了比较,这些研究分别代表了美国的非裔美国人、西班牙裔或拉丁裔美国人、欧洲裔美国人和芬兰的芬兰人。当他们报道美国人类遗传学杂志周三,研究人员发现,在某些情况下,基于阵列的基因分型加上植入可以近似于全基因组测序,但他们警告称,该结果不应应用于临床。
意大利生物医学研究所的资深合著者Christian Fuchsberger及其同事在他们的论文中写道:“尽管阵列基因分型和归因不能完全取代深度WGS,但我们发现它可以根据基因型阵列和参考面板的选择以及样本祖先,将变异的WGS近似到特定的(小等位基因频率)阈值。”
在他们的分析中,研究人员使用了来自BioMe、inpsyight、METSIM和MLOF队列的全基因组测序数据。对于每个个体,他们确定了如果由Illumina Core、OmniExpress或Omni 2.5M阵列生成,他们的基因型将是什么,然后使用1000基因组计划面板、单倍型参考联盟面板和改进的精确医学跨组学(TOPMed)面板进行基因型imputation。
研究人员发现,对于所有的祖先和归责参考面板,归责的质量随着阵列规模的增大而增加。总体而言,最密集的Omni 2.5M阵列具有最高的平均观测imputation,以及最高的数量和部分良好的imputation变异。
Omni 2.5M阵列中基于topmed的归位最接近于所有祖先背景中较小等位基因频率变异的全基因组测序。特别是,研究人员发现,该方法可以在人口水平上近似测序,在非洲血统队列中,小等位基因频率等于或大于0.14%,在西班牙/拉丁血统队列中,0.11%,在欧洲血统队列中,0.35%,在芬兰血统队列中,0.84%。
研究人员还注意到,在更精细的遗传祖先测量中,具有更高水平的非洲遗传祖先的个体往往有更高的基因型一致性率,这可能是因为在经历过种群瓶颈的非非洲人口中可能有更多罕见的变异。
其他因素也影响着imputation的准确性和质量。例如,重组率高、GC含量低、结构变异增加和片段重复的区域与较低的归入质量有关。
为了解释这一点,研究人员开发了一个名为RsqBrowser的软件工具,以帮助研究人员估计特定变异或基因组区域的祖先的归责质量,并指导他们的选择是依赖于阵列基因分型之后的归责,还是转向全基因组测序。RsqBrowser可在Michigan Imputation Server上公开使用。
此外,研究人员还检查了蛋白质编码变异是否可以很好地推断,这更有可能具有临床意义。他们发现,在不同的祖先群体中,罕见和低频变异的一致性率差异很大,而且一致性率进一步与更精细的祖先有关。
由于这种可变性,研究人员得出结论,全基因组测序“目前无法在临床环境中通过阵列基因分型和本文研究的参考组的归责来可靠地近似。”