纽约来自剑桥大学和其他地方的研究人员已经开发出基因评分来预测复杂的人类从多组数据中提取特征,并在欧洲、亚洲和非洲裔美国人祖先的队列中验证这些分数。
多组学工具获取一系列数据——转录组学、蛋白质组学、代谢组学等——是了解疾病病因的关键。然而,这样的分析既昂贵又耗时。
“低收入国家的许多低资源环境没有任何多组学数据,”共同通讯作者说剑桥大学公共卫生和初级保健系研究主任Michael Inouye说。他补充说:“我们的发现很重要,因为它们使多组学数据民主化,使每个人都有可能受益。”
他们的研究发表在自然周三,Inouye和同事使用INTERVAL研究的数据,该研究收集了参与者的血清或血浆样本,并使用5个组学平台进行分析蛋白质组、代谢组和转录组数据: SomaScan, Olink Target, Metabolon HD4, Nightingale,以及Illumina NovaSeq 6000全血RNA测序。这些参与者也进行了基因分型,经过质量控制,共有10,572,788个遗传变异。通过机器学习,研究人员计算出了17227人的基因得分生物分子特征10521个预测达到邦费罗尼调整显著性。
接下来,研究人员在东亚、南亚、非洲裔美国人和欧洲人的不同人群中验证了这些基因得分。
作者在他们的论文中写道:“总的来说,我们发现,在INTERVAL中开发的遗传评分可以预测亚洲或非洲裔美国人血统的南丁格尔和SomaScan特征的水平,但是,正如预期的那样,这些评分的表现相对于欧洲血统的队列显著降低。”
研究人员使用他们的方法为英国生物银行生成了一个合成的多组数据集,然后使用PheCodes用于全现象关联研究(PheWAS)。
他们确定了18种PheCodes的不同性状的遗传分数之间的18404个关联。根据研究人员的说法,循环、内分泌、代谢和消化系统疾病在各个平台上产生的关联数量最多。
PheWAS研究还能够检测到许多已知的疾病的血液生物标志物以及其他显著的关联。例如,研究人员发现,总胆固醇与心肌梗死显著相关,在Olink和SomaScan数据集中,IL-6R基因预测水平与心肌梗死显著相关。
研究人员指出,即使遗传分数的预测价值明显较低,也可能足以在当前和即将到来的生物银行的样本量中检测出真正的关联。
但Inouye强调了这项研究的局限性,他说机器学习模型的训练集需要有代表不同人口统计数据和祖先的个体的数据。他补充说:“只有这样才能得出更公平的分析和结果。”
研究人员将他们的发现汇编在一个名为OmicsPred的开放资源门户网站上。”尽管OmicsPred为更好地了解高遗传控制下临床或治疗性重要生物标志物的分布迈出了关键的第一步,但还需要更多的研究来了解多组性状的遗传评分在多大程度上可能有临床用途,”作者写道。