纽约——中国科学院的一个研究小组以中国人口为中心,汇集了变异资源、基因参考面板和归因服务器,使得更好地解释和挖掘功能丧失和其他可能导致疾病的变异成为可能。
“我们的研究为中国人群提供了大量高质量的(全基因组测序)资源,这将有助于检验已知基因变异对疾病易感性和药物反应的影响,并有利于未来的临床研究,”中国科学院研究员何顺民和徐涛及其同事写道。
对于一个纸出现在细胞的报道周二,Han100K计划的成员和中国的几个中心描述了在中国各地的人口中发现的数千万个变异和5800多个单倍型,用于“女娃基因组资源”项目。Nu佤邦——“中国神话中创造人类的母神”。
该团队对来自中国23个行政区的2999名中国参与者进行了深度全基因组测序,追踪到牛蛙资源集中超过7920万个单核苷酸或小插入或删除(indel)变体,其中包括2500万个新变体。这些基因组的测序范围平均为26倍。
作者称:“构建中国人口的综合基因组资源平台,为世界上最大的人口群体的医学遗传学发现提供了动力,并有助于世界范围内人类遗传资源的多样性。”
在这些变异中,研究小组追踪了ClinVar数据库中报告的1140个致病变异、近3800个长非编码RNA (lncRNA)、剪接变异以及22500多个位于基因组编码或非编码部分的功能丧失变异——一组功能丧失变异包括18711个蛋白质截断变异和近11500个功能丧失变异,这些变异在以前的研究中没有发现。
作者解释说:“这项研究中对蛋白质编码和lncRNA基因功能缺失变体的识别扩大了自然界中功能缺失变体的目录。”“当与表型信息结合时,这一资源将为基因功能提供重要的生物学见解。”
研究人员还在另一组292人的人群中,缩小了近1930万个等位基因频率至少为0.1%的变异,形成了一个完整的、精炼的NyuWa参考面板,他们应用于中国南方和北方的汉人群体。他们注意到,NyuWa资源和参考面板已经汇集在一个变体数据库中,其中包括一个归因工具。
例如,在对几十个亚洲人口进行估算时,参考面板似乎优于其他几个人口数据集,特别是在有汉族血统的个体中,估算错误率降低了30%到近51%。
“种群结构和估算模拟试验支持了一个综合参考小组对中国北方和南方的适用性,”作者写道,并补充说,更广泛的基因组资源有望推动未来对中国乃至亚洲其他地区种群的遗传研究。
尽管如此,他们指出,在当前迭代的NyuWa参考面板中发现的大多数样本来自大多数汉族人口,并强调“NyuWa参考面板的表现仍然可以通过纳入更多的少数民族样本来提高。”