芝加哥——斯坦福大学的研究人员和他们的同事开发了一种用于诊断单基因疾病的新型计算系统,该系统可以解析科学和医学文章的全文,而不仅仅是摘要,从而将基因型和表型与文献进行匹配,比以前的方法更准确。
AMELIE是孟德尔文献自动评估(Automatic Mendelian Literature Evaluation)的缩写,它梳理了PubMed索引的2900万篇摘要,并进一步检查了数十万篇完整的期刊文章,以发现与已知遗传变异有关的表型信息。通过自然语言处理(NLP)和机器学习,该系统根据患者的表现型对患者外显子组序列中最可能的变体进行排序。
即使是在“单例”患者中——那些没有亲戚的外显子组序列——AMELIE也将英国215名确诊患者中66%的致病基因排在了首位解读发育障碍(DDD)项目。此外,根据一项研究,在90%的情况下,该系统在前10个变异中包含了正确的基因出现在科学转化医学上周。
研究人员在斯坦福儿童健康中心和波士顿儿童医院曼顿孤儿病研究中心的56个独生子女病例的回顾性研究中复制了他们的结果。在这里,AMELIE将59%的患者的致病基因排在首位,将89%的试验组患者的致病基因排在前十。
AMELIE的性能也远超其他技术。相比较而言,Exomiser在威康桑格研究所(Wellcome Sanger Institute)的一个匹配系统中,致病基因只在38%的情况下排在首位Phen-Gen根据论文,另一种工具,上面那道题的正确率只有8%。
作者写道:“如果使用其他任何一种方法,临床医生将不得不调查平均30个基因(当使用Exomiser对患者候选致病基因进行排名时)到每个患者108个基因之间,以在90%的诊断病例中得出诊断。”
他们还指出,如果临床医生按照AMELIE建议的候选基因排序,他们将不得不通过735个基因-患者匹配来找到所有215名患者的致病基因。然而,如果他们按照随机顺序浏览候选基因列表,他们将需要评估14383个与患者基因匹配的基因,以得出所有患者的致病基因。
他们写道,AMELIE做出诊断的速度比随机评估快近20倍。
研究人员写道:“我们的目标是通过使用来自初级文献的信息来构建基因排名,从而加快孟德尔病患者的诊断,从而使临床医生在最短的时间内发现致病基因和支持文献。”
论文称:“因为AMELIE是一种自动策展方法,只需要初始临界量的人工策展数据进行训练,它不受正在进行的人工策展瓶颈的限制。”
通讯作者Gill Bejerano是斯坦福大学发育生物学、计算机科学、儿童医学遗传学和生物医学数据科学的副教授,他说AMELIE不仅节省了临床医生稀缺的时间,而且还帮助医生做出更准确的决定。
Bejerano说:“我们所在的领域非常需要这样的方法,因为很多时间都花在了文献评估上。”通过让计算机进行第一次检查,人类可以把时间花在AMELIE还不能给出正确诊断的10%的病例上。
贝杰拉诺说:“目前的挑战是,计算机要处理大量数据,并让人类成为认可错误的标志或学习错误的来源。”他补充说,AMELIE还可以帮助重新分析未确诊的病例。
AMELIE于2017年上线,通过对数百万篇全文文章应用自然语言处理,建立了一个知识库。架构师使用公共资源对系统进行训练,包括在线人类孟德尔遗传(OMIM)、人类基因突变数据库(HGMD)和ClinVar。
然后,机器学习引擎将表型和基因型与知识库进行比较,生成候选致病基因的排序列表。每个结果都包含文献引用,因此人们可以验证推荐。
在PubMed索引的2900万篇文章中,只有一小部分与单基因疾病诊断相关,因此研究人员建立了一个“分类器”,根据标题和摘要寻找潜在的突出文章。这就过滤掉了98%的PubMed文献集。
AMELIE从全文文章中提取了一些元素,包括从它完全解析的123,073篇论文中每篇3个变体的中位数,最终建立了一个包含872,080个基因-表型关系的知识库,涉及11537个人类基因。然后,系统筛选每个患者的变异列表,以识别在没有孟德尔疾病的患者中罕见的“候选致病变异”。
一个被称为AMELIE分类器的指标将一组表现型、一个潜在的致病基因和一篇关于特定基因的文章的“三元组”分配为0到100分,得分越高表明文章相关性越大。根据这些分数,该技术构建了可能的致病基因列表。vwin德赢ac米兰合作
Bejerano说,AMELIE推动了科学的发展,不仅因为它从pubmed索引相关文章的全文中提取事实,还因为它将患者特异性表型与从该NLP构建的知识库中的信息进行了比较。
贝杰拉诺说:“我们会找到任何出现的病人,从基因组方面进行比较和分析,然后说,‘这是这个病人的所有候选基因’。”该系统要处理每个病人近9000份文件。“想象一下,如果你必须让一个人为一个病人阅读9000篇论文,”他说。
“我认为我们展示的最大创新是,这两个部分可以协调工作。我们的知识库并不完善,但当你把它与真实的病人结合起来时,正确的论文和诊断就会排在最前面。”Bejerano补充道。
这项研究的重点是儿科孟德尔疾病,但Bejerano说,这种方法可以应用于任何单基因疾病。他曾尝试在成年患者身上测试AMELIE,但由于时间原因,一次潜在的合作失败了。他说:“没有理由它不能在单基因成人病例中发挥同样的作用。”此外,癌症是AMELIE的一个“非常相关的目标”,他指出,但没有详细说明。
“今天,你真的可以让机器完成诊断的第一线。我认为这就是论文明确表明的,”Bejerano说。他补充说,随着测序的普及,自动化诊断过程将变得越来越重要。
然而,由于AMELIE依赖于外显子组测序数据而不是全基因组,加上该技术仅与当前文献一样完整,可能不包括完整的表型集,因此有局限性。vwin德赢ac米兰合作
AMELIE还依赖于人类表现型本体(HPO)来训练它的AI。作者承认,尽管在研究过程中它收集了80%的相关全文文章,但五分之一的潜在知识可能没有包括HPO术语来描述表型。
德国波恩大学(University of Bonn)基因组统计和生物信息学研究所主任彼得·克拉维茨(Peter Krawitz)说,他会考虑在自己的研究中使用AMELIE,尽管他表达了一些保留意见。
“在这个领域显然需要更好的工具,”他说。“现有的工具并不完美。每个人都知道。每个人都明白我们需要更好的支持,但研究小组选择了不同的方法。”
Krawitz是一项名为图像分析外显子组数据优先排序的研究的通讯作者(PEDIA),结果出现在医学中的遗传学一年前。
Krawitz说,虽然PEDIA的研究人员使用了一些与AMELIE相同的比较得分,包括Phenomizer,但前者是基于图像的,而AMELIE是完全基于文本的,因此两者在某种程度上是互补的。
Krawitz还担任FDNA的首席数据科学官该公司销售面部识别软件Face2Gene它将面部特征与基因组和更传统的表型数据结合起来,以帮助诊断遗传疾病。PEDIA的研究部分评估了这项技术。vwin德赢ac米兰合作
Krawitz说,在搜索HPO术语时,PEDIA团队发现评估整个文本文档太难了,而且有些多余,但他对AMELIE团队承担这项任务表示赞赏。
他指出,与其他专业的医生相比,像他这样的医学遗传学家倾向于撰写更长时间的临床记录,因为病例可能很复杂,尤其是在收集家族史方面,但这种情况正在开始改变。他说:“这太耗时了,我们常常甚至不知道其他医生是否欣赏这个长度,所以缩短它已经成为一种趋势。”
Krawitz说:“如果你能处理连续的文本,这并不一定是一个优势,因为这个领域实际上可能会转向更像项目列表的报告。”“我们认为我们可以跳过这部分。我们更愿意专注于HPO条款清单。”
Krawitz称赞AMELIE的研究是“好工作”,但也敦促谨慎,因为它是基于回顾性和模拟数据。他说:“也许两年后,当他们能够在临床环境中对其进行基准测试时,(我们将了解到更多)相关信息。”
贝杰拉诺说,后续工作正在进行中。
在波恩,Krawitz和他的同事正在写一篇关于PEDIA的后续前瞻性研究,覆盖了德国各地的患者。
与此同时,斯坦福大学的团队正在努力使AMELIE对其他人可用。到目前为止,AMELIE还没有使用斯坦福的高性能计算基础设施,只是Bejerano的实验室购买并一直支持的一台服务器。硬件正在升级,网站正在重新设计;一周前,AMELIE网站发布了一份免责声明,称服务器因外部用户上传的VCF文件而过载,这些用户可能一直在尝试这项技术。vwin德赢ac米兰合作
该项目主要由Bejerano的实验室资助,但他正在寻找外部来源,以使AMELIE更加可持续和可扩展。
贝杰拉诺说:“我们现在正准备安装一个新的硬件,甚至是一个改进的界面,让人们可以上传他们的vcf,在网站上做更多的分析工作。”
他说:“我们的希望是,这将以一种允许我们获得适当资金的方式得到接受,以促进社区所需的所有硬件,但这实际上将取决于社区以及他们在这背后提供多少支持。”