纽约——一项新的分析发现,电子健康记录数据可能能够识别出哪些人可能从疾病基因检测中受益。
罕见遗传疾病影响着世界上约5%的人口,诊断起来可能很棘手,特别是在许多疾病都是未知的,而其他疾病可能出现一系列症状或表型的情况下。病人通常要经历漫长的诊断过程。
范德比尔特大学医学中心的研究人员怀疑,电子病历中的纵向临床数据可以用来识别罕见疾病中发现的罕见表型模式,并发现可能受影响的个体。当他们报道自然医学本周,研究人员基于这种想法开发了一种基于机器学习的预测模型,并发现它在识别接受染色体微阵列分析的患者时具有很高的准确性,这表明研究人员反过来可以更系统地识别可能从基因检测中受益的个人。
范德比尔特大学的医学副教授道格拉斯·鲁德弗在一份声明中说:“患有罕见遗传疾病的患者在进行基因检测之前通常要经历多年的诊断过程,如果他们真的进行了基因检测的话。”“我们的工作可以有助于更系统和及时的方法,提醒提供者可能从基因检测中受益的患者。”
研究人员利用2286名接受染色体微阵列检测的患者和9144名未接受染色体微阵列检测的匹配对照组的数据训练了几个模型。他们研究了是否可以根据代表不同表现型的诊断计费码的差异来预测哪些人进行了基因检测。性能最好的模型包含随机森林分析和码数作为输入。
当研究人员去除患者接受基因测试后可能产生的任何码时,该模型的表现进一步良好:它能够正确地对87%的病例和96%的对照组进行分类。
虽然染色体微阵列检测通常是一线基因检测,但研究人员指出,它不是唯一的基因检测类型。他们在172265人的更大样本上测试了他们的模型,其中10074人去过基因诊所,107263人没有在他们的医疗记录中怀疑有遗传疾病。在本队列中,该模型也能正确、准确地对患者进行分类。他们在马萨诸塞州布里格姆总医院验证了他们的模型,发现它在外部站点有很高的准确性。
研究人员还在训练集之外的16种遗传疾病上测试了他们的模型,包括唐氏综合症和囊性纤维化。他们发现,它可以识别出患有这些更常见遗传疾病的患者,这表明许多罕见表型的模式可能适用于各种遗传疾病。
Ruderfer说:“在广泛的验证证明了高预测性能后,我们非常感兴趣的是评估我们的模型的实现如何与当前接受测试的人的现状进行比较,以及这些测试的结果是什么。”
他和他的同事们研究了他们的模型是否能够在临床医生之前挑选出患者进行基因检测。他们估计,他们的模型会建议患者在实际进行测试前数月进行测试.根据设定的阈值,该模型建议平均在122天至315天之前进行测试。
研究结果表明,他们的模型可以自动化和系统化哪些患者被怀疑患有遗传疾病,并进行基因检测。他们指出,他们的目标是改善对遗传疾病患者的识别,不一定是通过更广泛的检测,而是通过使检测的获取更加一致和公平。