洛杉矶——来自墨西哥的两项研究强调了该国对大规模人口数据集多样化的贡献以及这样做的好处。
本周在这里举行的美国人类遗传学学会年会上,库埃纳瓦卡国立大学Autónoma de México的Mashaal Sohail展示了如何利用墨西哥生物银行在代表性不足的人群中生成基因型-表型数据,揭示鲜为人知的遗传历史,并产生生物医学相关的发现。
与此同时,Regeneron公司的Andrey Ziyatdinov通过墨西哥城前瞻性研究(MCPS)展示了可扩展的基因型和基于单倍型的方法来表征精细规模的人口结构和混合。
拉丁美洲人口在基因组研究中的代表性不足,尽管这些祖先代表了相当大的人口——据估计约占全球人口的8%。由于不同的遗传历史会影响复杂遗传性状和疾病中的变异,因此在墨西哥人的基因型和表型之间建立详细的联系既可以阐明该国的遗传历史,也可以提供医学相关的见解。
利用来自墨西哥生物银行的数据,Sohail和她的同事开发了一套用于祖先反卷积和后裔身份(IBD)片段推断的方法,她的团队用这些方法推断出了中美洲不同地区200代人的详细祖先历史。她将这些与一系列复杂的特征联系起来,这些特征的变化可以通过生物库数据确定的重要遗传和环境因素来解释,这些因素预测了身高、身体质量指数(BMI)和甘油三酯等特征的变化。除了ASHG的介绍,该团队的工作也显示为在BioRxiv预印本.
为了在确保多样化的土著和农村代表性的同时,描绘墨西哥外来人口的历史,Sohail在2000年进行的全国健康调查的招聘过程中,对那些会说土著语言和来自农村地区的人进行了充实。
Sohail和她的团队评估了来自墨西哥32个州的6057个人的大约180万个单核苷酸多态性(SNPs),发现现代墨西哥人的祖先主要来自15世纪之前在中美洲、西欧和西非发现的祖先,以及一小部分具有东亚血统的祖先。主要位于格雷罗州,与马尼拉帆船贸易有关,该贸易将货物从中国和菲律宾运往墨西哥。他们还注意到墨西哥南部玛雅地区与该国其他地区的明显人口子结构。
虽然Sohail的发现具有明显的人类学意义,但它们也显示了遗传和复杂性状变异的模式。
例如,Sohail和她的团队观察到,纯合性的运行,即基因组的连续区域,个体在所有位点上都是纯合的,反映了人口统计学历史以及等位基因频率分布的变化,与具有更多西欧和西非祖先的个体相比,具有更高中美洲祖先的个体出现的罕见变异更少。
这些分布与人口瓶颈相对应,这似乎导致了身高、BMI、甘油三酯和胆固醇等复杂特征的差异。
通过检查遗传血统,Sohail还能够梳理出可能的环境对复杂特征的影响。例如,拥有更多中美洲血统的人往往明显比其他血统的人矮,拥有任何中美洲血统的年轻人往往比拥有相同血统的老年人高。
同样,索海尔发现,说土著语言的人胆固醇水平明显较低,而生活在城市环境、高海拔地区或年龄较大的人胆固醇水平往往较高。低HDL和低密度脂蛋白水平也与说土著语言的人有关,无论其血统如何,这表明文化和饮食等其他因素可能超过一些遗传因素。
Sohail的团队在预印本中写道:“我们的工作证明了在代表性不足的人群中生成基因型-表型数据的价值,可以揭示鲜为人知的遗传历史,并产生与生物医学相关的发现。”
利用更大但更受地理限制的MCPS数据集,Andrey Ziyatdinov和来自工业界和学术界的研究人员团队开发了两种工具,以促进未来使用特定祖先变体的研究,这项工作也在最近的一篇论文中描述了BioRxiv预印本.
虽然覆盖的地理区域比墨西哥生物银行要少,但MCPS是一个丰富的数据集,包括从墨西哥城Coyoacán和伊斯塔帕拉帕地区招募的超过15万名成年人的预期队列。该数据集包括所有参与者的基因型和外显子组测序数据,以及10,000个选定个体的全基因组测序。
Ziyatdinov说:“虽然墨西哥生物银行试图获取整个国家的数据,但我们的数据集只有墨西哥城,但数据集很大。”
他们的工具包括MCPS变体浏览器,一个特定于祖先的等位基因频率浏览器,以及MCPS10k面板,一个用于估计特定人群的等位基因频率的imputation参考面板,利用本地祖先和MCPS全外显子组和全基因组测序数据集中的变异信息。他们的方法增加了具有祖先特异性等位基因频率的变异的数量,也增加了用于从WES数据中估计等位基因频率的墨西哥土著的有效样本量。
如果没有人群特异性等位基因频率的参考数据集,诊断和解释基因组变异——特别是在罕见疾病的背景下——会受到难以区分以前未报告或未采样的人群特异性变异与潜在致病性变异的阻碍。
regeneron领导的团队在预印本中写道,计算遗传血统和混合在GWAS中至关重要,可用于提高功率,并探索多基因风险评分在人群中的应用效果。
在他们的研究中,对于小等位基因频率大于0.1%的变异和具有较多中美洲血统的个体,MCPS10k的表现优于TOPMed。虽然还没有一个具体的日期,MCPS变体浏览器和MCPS10k面板将很快在网上可用,后者通过密歇根Imputation服务器。
Ziyatdinov说:“这是一个独特的数据集,我们试图共享所有可以共享的东西。”
该团队现在已经在Regeneron遗传学中心网站上公开了超过1.41亿MCPS变体的等位基因频率,他们声称与gnomAD浏览器相比,本地祖先解析的等位基因频率增加了10倍。
Ziyatdinov说:“这是学术和行业合作的一个很好的例子,类似于英国生物银行。”
除了为具有不同血统的人群中遗传研究的价值提供一个例子外,归因参考小组还为未来的遗传研究提供了有用的资源,例如在墨西哥和美国(其中大多数西班牙裔/拉丁裔人口是墨西哥后裔)对疾病遗传基础的调查。