芝加哥——范德比尔特大学医学中心(VUMC)在为国家卫生研究院的“我们所有人”研究开发数据和研究基础设施时,严重依赖于内部的纵向医疗记录和DNA样本的BioVU银行。
最近,范德比尔特大学的一个多学科团队,在威斯康辛州马什菲尔德诊所和俄克拉荷马大学健康科学中心的研究人员的协助下,一直在开发一个计算表型风险评分的公式。约书亚丹尼,VUMC生物医学信息学和医学副教授,“我们所有人”数据中心负责人,是一项研究的通讯作者纸关于这个主题的科学2018年3月。
他说,另一篇描述开发这种风险评分方法的论文正在修订阶段。Denny的生物信息学实验室以前开发了全现象关联研究(PheWAS)技术,用于将未识别的基因组和电子健康记录数据与计费代码联系起来。
丹尼他是“我们所有人”数据和研究中心的负责人该项目旨在收集、存储和传播至少100万美国居民的健康、基因、生活方式和环境数据。范德比尔特是该项目数据方面的牵头机构,并得到了Alphabet生命科学子公司Verily和Broad研究所的大力帮助。
为了克服技术基础设施和现成软件的缺陷,BioVU经历了漫长的试验和失败,但自2007年2月22日采集第一个样本以来,BioVU的理念并没有太大变化。范德比尔特大学个性化药物高级副总裁、临床药理学家和生物信息vwin德赢ac米兰合作学家丹·罗登(Dan Roden)立即回忆起这一天。
此外,BioVU和All of Us之间还有一个关键区别。BioVU与患者的协议规定,范德比尔特将不会退还样本,也不会试图重新识别个人,这与英国生物银行类似。
然而,我们所有人“都以我们要返回信息为前提,”丹尼说。“我们所有人”确实会像BioVU一样清洗身份,但该项目确实允许为了研究目的重新联系组织捐赠者或返回样本。
丹尼说:“我认为从根本上说,这取决于项目的设计和期望。”Denny说:“像BioVU这样的项目从一开始就被设计成一种不可识别的、不可重新联系的资源,并且没有向后的联系。”
BioVU使用Vanderbilt的Epic Systems EHR进行表型分析。“我告诉那些想要使用BioVU的人,如果它在电子健康记录中,我们就可以得到它。如果不是,我们就不能。”罗登说。
罗登说,BioVU的设计使重新识别患者没有“后门”。“我们在数据使用协议中包括的一件事是,不会试图从他们获得的表型数据中重新识别人们,”他说。
BioVU最初选择退出,但国立卫生研究院2015年改变了规则坚持要求人们选择参与任何国家卫生研究院资助的基因组研究项目,范德比尔特大学遵守了这一指令。
罗登说:“我们改变的只是人们用来注册或不注册的机制。”后端技术没有改变,保护患者匿名性的承诺也没vwin德赢ac米兰合作有改变。
对于其基因型-表型匹配操作,VUMC实际上维护其Epic Systems电子健康记录的两个独立图像。
据Denny称,其中一个名为Research Derivative的是一个“可操作的、可识别的数据存储”,用于支持精准医疗和包括临床试验招募在内的用例。在这种情况下,研究人员可能需要知道特定的人或类型的患者是否在某一天有预约,因此这个数据库每天都会频繁更新。
Denny表示:“这是Epic之外的一个外部数据库,基本上每晚都会进行更新。这与BioVU不同。
BioVU运行在另一个版本,称为合成衍生物。这个数据库与再识别技术隔离开来,每年更新不超过三到四次。vwin德赢ac米兰合作
Denny说:“对于临床试验招募,你需要跟上时代,但对于基因研究,人们不一定希望数据一直在变化。”
范德比尔特只会在新数据集可用时更新合成导数。“但你真的不需要(更新)新的账单代码或昨天收到的药物条目。我们发现基因分析不需要这种频率的更新,”丹尼说。VWIN娱乐网站
罗登说,“版本控制”是人口研究的一个问题。用户只是不希望每次登录时数据都发生变化。每天或每周处理更新的队列计数或药物列表变得不切实际。
BioVU最初每月更新一次这个数据库。罗登说:“我们没有意识到第一,物流问题,第二,像版本控制这样的事情确实会碍事。”
Denny说,识别笔记的计算过程可能需要一整天的时间来识别全文。
丹尼说:“另一个问题是,你必须让你所有的数据集在某个特定的时间点上保持一致和同步。”“你想让你的笔记、账单代码和你的药物在相同的日期范围内尽可能地安排好,所以这是另一件你不能连续做的事情。”
Denny说,当BioVU开始时,范德比尔特大学的信息学家想要频繁地更新合成衍生物,但该机构缺乏硬件基础设施来做到这一点。
他说:“在云计算出现之前,2007年的电子病历根本就不是用于跨面板查询的,更不用说搜索所有的笔记了。”Denny编写的查询可能需要长达一周的时间才能运行。
最终,范德比尔特获得了处理每周更新频率的基础设施。“在某种程度上,我们可能每月更新一次,”Denny说,“但我们更担心版本控制的问题。”
在开发BioVU并通过审批程序时,开发人员的理念是,研究人员通常不需要知道患者的身份。Denny说,他们只需要获得其他测试留下的血液样本和组织,以提取DNA,然后让生物信息学团队将遗传物质与EHR联系起来。
他解释说:“我们还想提供一定程度的保护,以防万一有人想要传唤某人的DNA。”
并不是每个想加入BioVU的人都能进入数据库。有些是随机排除的,而另一些则没有足够的多余生物材料。
丹尼说:“这是我们建立信任的方式之一,也是我们与患者群体虚拟达成的协议之一,并通过我们的咨询委员会进行讨论。”
罗登说,范德比尔特从BioVU成立之初就认识到,患者群体“不是一个整体”,每个人都有不同的偏好。
“有些病人真的很想捐献他们的DNA,但真的不想再被联系上。还有一些人愿意参加,他们希望得到一些回报,但是他们意识到,作为这个项目的一部分,他们不会得到回报。”“我认为认识到人们对这类工作的态度千差万别是很重要的。”
在技术方面,电子病历最初设计用于处理账单,后来演变为记录存储,但除了最专业的系统之外,所有系统都从未为研究而优化过。
Denny说:“有很多方法可以在运行的电子病历中查询数据,但它并不总是适合你想做的所有事情。”
值得注意的是,在BioVU开始时,ehr和合成衍生物的其他成分的数据标准严重缺乏。Vanderbilt此后采用了一个公共数据模型,通过公共词汇表映射实验室和药物条目。
电子处方当时并不普遍,但自从联邦政府在2008年开始为医疗服务提供者提供电子处方激励措施,三年后开始为电子病历提供激励措施以来,电子处方已成为常态。范德比尔特大学是早期的采用者,因此它必须建立自然语言处理工具,从医疗记录中提取药物数据,用于BioVU和其他研究用途。
这种图谱对罕见病尤为重要。
Denny说:“你可能仍然希望能够捕捉到十年前发生的病例和他们服用的药物,所以将这些不同的数据源放在一起是有用的。”
他补充说:“我们从一种数据格式开始,它看起来很像我们的电子病历,但被放入关系数据库中。”然后他们意识到他们可以开始在外部分类法上标准化项目。
当Vanderbilt在2017年放弃了国产和McKesson EHR的混合,转而支持Epic安装时,这就变得必要了。
“我们可以尝试让我们的旧数据看起来像Epic,也可以尝试让Epic看起来像我们的旧数据。这两个都有问题,”丹尼说。“或者我们可以把它们都搬到第三个标准,并尝试为社区做更多标准化的事情。”
范德比尔特因此选择了观察医疗结果伙伴关系(OMOP)通用数据模型,用于BioVU和我们所有人.
丹尼说:“不同的参与者会有不同的观点和不同的贡献方式。”“我认为模型的多样性是有优势的,然后我们有责任弄清楚如何确保我们能够真正合作进行研究,因为我们真的需要利用庞大的人口。”
截至9月中旬,BioVU社区有281个活跃的项目,167名不同的主要研究人员,而且这些项目往往是广泛的。Denny举例说,出于这个目的,大多数eMERGE都被算作一个单独的项目。
BioVU项目仅在范德比尔特大学医学中心就涉及了大约870名用户,Denny说他知道至少有250篇发表的文章使用了BioVU数据。丹尼说,后者的数字可能更高,因为范德比尔特大学缺乏一种有效的方法来跟踪所有依赖于BioVU的出版物。
“在学习走路和跑步的过程中,你得磨几次膝盖的皮,”丹尼说。“我觉得BioVU和合成衍生物是一个很好的游乐场,让我们学习了很多经验教训,我们可以把这些经验教训构建到像《我们所有人》这样的东西中。”