芝加哥(基因组网)-哥伦比亚大学的科学家和他们的同事开发了一种工具,可以自动从患者的电子健康记录中提取表型信息,以改进遗传疾病检测。
四年前,生物信息学家和计算生物学家王凯,现在是费城儿童医院和宾夕法尼亚大学的病理学和实验室医学副教授,开发了Phenolyzer即基于表型的基因分析仪,其目的是根据患者的表型信息找到可能与患者病情有关的基因。现在,王与哥伦比亚大学瓦格洛斯医学院的前同事一起,试图通过将该技术与电子健康记录连接起来,实现这一过程的自动化。vwin德赢ac米兰合作
结果是EHR-Phenolyzer,它添加了自然语言处理来分析EHRs和其他来源中的非结构化数据,包括实验室信息系统,将信息映射到人类表型本体。
“我们的工具的目的是自动化整个程序,这样来自遗传咨询师的非结构化文本可以被组织成标准化的本体,可以包括在订单申请表格中,”王说,他在2017年底搬到CHOP。“标准本体论形式的表型信息可以与基因组或外显子组测序数据一起使用,以改进对疾病病因的发现。”
特别是,该工具旨在帮助诊断实验室更容易地找到致病基因,为他们的患者提供更好的表型数据。
“我们都知道,表型信息对于进行遗传诊断和分离基因组测序数据非常重要,”王说。“但在现实中,在许多诊断环境中,表型信息要么无法提供给诊断实验室,要么只能作为ICD-9代码,或者只是几个词,如‘癫痫’或‘儿童神经学’。额外的细节不会提供给分析基因组序列数据的人。”
“对他们来说,识别致病基因是一项重大挑战。认识到诊断环境中的这一特殊挑战,我们决定开发这个工具,以便我们能最好地利用电子健康记录中已有的信息。”
Wang说,遗传咨询师与患者面谈的文本应该“以一种标准的方式来帮助解释基因组或外显子组测序数据,以帮助提高诊断产量,缩短诊断周转时间。”这就是EHR-Phenolyzer派上用场的地方。
他和他的同事描述了EHR-Phenolyzer文章昨天在网上发表了美国人类遗传学杂志.
根据这篇论文,EHR-Phenolyzer是一个“自动化的基于ehr叙述的表现型管道,以实现基于表现型的基因优先排序。”
该研究的主要目标是证明从电子病历和其他卫生IT系统中挖掘的“深度表型信息”可以改善全外显子组和全基因组测序数据中遗传变异与疾病症状和表现的关联。
作者写道:“我们的第二个目标是对经过良好测试的自然语言处理(NLP)系统进行比较分析,以解析EHR叙事,进行表型提取和规范化,并评估EHR- phenolyzer分析真实世界的EHR数据的能力,并从阳性诊断个体的WES中优先考虑候选基因。”
根据本文,EHR-Phenolyzer包括两个步骤。第一步识别HPO概念,在NLP的帮助下,通过公共工具MetaMap或专有工具MedLEE。第二步使用Phenolyzer对基因进行排序。
MedLEE来自哥伦比亚生物信息学家Carol Friedman,而MetaMap是美国国家医学图书馆提供的NLP引擎。
“我们测试了它们如何在同一套笔记上取得相当的性能”,这是一种“接受有意义的、相关的HPO概念”的可行性测试,该研究的联合负责人翁春华(音)说,他是哥伦比亚大学数据科学研究所的成员。
他们发现MetaMap每条记录平均生成17.6个HPO术语,而MedLEE平均生成19.4个。两者都明显高于手工图表提取的平均11个术语。
CHOP的Wang称这项研究是一项“概念验证研究,证明了使用EHR信息以及整合表型和基因型信息来改善患者诊断,并最终改善医疗保健的可行性。”
根据这篇论文,他们对28名确诊为单基因疾病的儿童患者进行了EHR-Phenolyzer测试。该工具将16个个体的前100个基因中的致病变异基因进行了排序,占比约为57%。
作者写道:“仅根据EHR中记录的表型信息,约50%的诊断可以缩小到前100个基因,这是值得注意的,特别是因为这一性能可以通过完全自动化的表型概念识别方法实现。”
“我们相信,随着基因组检测的日益普及,来自EHR数据的深层表型是有价值的。提高诊断的先验概率会增加检测的阳性预测价值,尽管目前的基因组检测方法倾向于放弃这一步,”他们写道。“因此,在变异解释之前,基于ehr表型的基因优先排序的系统集成可以潜在地提高工作流程效率,帮助达到临床有效结果,同时提高诊断率。”
研究人员通过在梅奥诊所测试这项技术来验证他们的结果。vwin德赢ac米兰合作这也表明ehr -表型与多个EHRs兼容。哥伦比亚大学使用Allscripts Healthvwin德赢ac米兰合作care Solutions的技术,而CHOP和Mayo则使用Epic Systems的电子病历。
与基线研究一样,验证工作也需要一些手工劳动。
王说:“即使是Epic这样的电子病历系统,也可能以不同的机制存储遗传咨询师的记录。”“这就是需要为想要使用该工具的研究人员进行定制的地方。他们需要弄清楚在自己的医疗系统中信息是如何存储的”以及如何提取这些数据。
在建造EHR-Phenolyzer的过程中,Wang和Weng进行了大量的手工图表提取,以准备和测试数据集,以训练NLP引擎,希望有一天能将人为因素排除在这个过程之外。
“我们的目标是使所有这些都完全自动化,这样一个命令行就可以从EHR检索相关遗传顾问的报告,并自动将它们转换为标准的科学术语集,并将这些术语包含在申请订单表单中。然后,诊断实验室可以对患者样本和表型信息进行分析,以找出疾病的根本原因。”
他说,自动化将提高诊断效率,缩短诊断遗传疾病的时间。
哥伦比亚大学生物信息学家翁补充说:“这种EHR-Phenolyzer系统利用了现有的数据资源,因此比其他研究更有效、更便宜。”“这是二次利用现有电子病历数据的一个好例子。它使我们能够为基因组医学获取患者丰富的表型[数据]。”
她说:“如果你能从EHR中得到很多表现型,那么你就能更好地了解疾病。”
Genevwin德赢ac米兰合作Dx董事总经理本杰明•所罗门(Benjamin Solomon)表示,这项技术当然可以用于诊断是生物参考实验室的子公司。
所罗门说:“我确实认为这是一个令人兴奋的进展。“很多诊断方法就像电话游戏,”在游戏中,每个传递相关信息的人都以略微不同的方式传递信息,不可避免地会从开始到结束改变解释。
像EHR- phenolyzer这样的方法减少了Solomon所说的“人类的模糊性”,以及从患者到临床医生到EHR再到实验室过程中潜在的信息丢失。“我喜欢它,因为它离源头很近,”他说。
EHR- phenolyzer并不是唯一的,因为其他公司也在试图解决将EHR数据映射到HPO的问题。所罗门特别提到范德比尔特大学医学中心研究今年早些时候出版。然而,这项研究依赖于帐单代码,而不是临床记录。
这两种方法都有助于达到在节省时间的同时改善诊断的目标。所罗门说:“没有人能独自解决这个问题。”
据王说,EHR- phenolyzer的长期计划可能包括将该技术商业化,作为流行的EHR系统的组成部分,但这可能需要数年时间。vwin德赢ac米兰合作与此同时,测试和改进将在哥伦比亚和CHOP继续进行。
“我认为未来有很多方面可以改进,例如,NLP软件的精确选择,或者专门为HPO分析设计的更多定制的NLP工具是否可以获得更好的结果,”王说。
开发人员将考虑EHR-Phenolyzer是否能够提供不仅仅是咨询师的笔记,例如,实验室测试结果、医学成像和疾病发病年龄等数据点。
“也有可能一些患者自我报告的表型信息或表型表现不在遗传咨询师的笔记中。也许这也将有助于达成候选基因诊断,可以结合基因数据做出最终诊断,”王猜测。