这篇文章已经更新,以纠正以前报道的研究从属关系中的不准确性。虽然怀特黑德研究所隶属于麻省理工学院,但它是一个独立的实体,因此与该机构是分开的。
研究人员来自怀特黑德生物医学研究所、贝勒医学院和特拉维夫大学的研究成果已经发表一项研究在科学这表明有可能从未识别的遗传物质推断公共测序项目参与者的身份。
这项研究中最令人不安的可能是,研究人员使用的基因和人口信息是从公众可访问的互联网资源中免费获取的。
这篇论文解释说,研究人员通过在娱乐遗传谱系数据库中搜索Y染色体上的短串联重复序列,从他们的基因组数据中获得了他们的姓氏。然后,通过将姓氏与其他类型的元数据(如年龄和州)相关联,他们能够“三角定位目标的身份”。
这项研究已经促使美国国家人类基因组研究所和美国国家普通医学科学研究所(他们在发表之前都对研究结果进行了审查)将年龄信息从科里尔医学研究所NIGMS人类遗传细胞库的公共可访问部分转移到受控访问位置。
此外,NIGMS和NHGRI的官员发表了一份单独的报告文章这也出现在同一期的科学在这篇文章中,他们呼吁重新审视“目前管理基因组和其他组学类型数据可识别性的范式”。
怀特海德研究所研究员、该研究负责人亚尼夫·埃利希(Yaniv Erlich)表示,虽然研究结果确实指出了“基因组学研究中存在侵犯隐私的可能性”,但它们绝不能成为限制共享研究数据的理由,也不应阻止个人参与基因组学研究或将数据提交到谱系学网站。
他说,答案不是关闭公共研究数据库或将信息锁定在防火墙后BioInform.这些资源“非常重要,公共数据共享对遗传学社区、研究人员和社会都有很多好处。”
他说,研究人员的意图是“阐明”困扰基因组学项目的隐私问题,以引发公众关于如何确保基因组数据安全的讨论,并确保研究参与者在同意参与研究研究之前,对公开个人遗传信息的风险进行适当的教育。
他说,向研究参与者展示一种“平衡的观点”也很重要,这种观点强调了参与基因组学研究的风险和好处。
同样,NHGRI和NIGMS官员呼吁研究参与者、研究人员、临床医生、倡导团体和其他利益相关者之间进行对话,重点是平衡研究参与者的隐私权与通过数据共享实现更好的研究可以获得的社会效益。
名字意味着什么?
埃利希说,他对数据安全问题的兴趣可以追溯到他的本科时代,当时他在一家计算机安全公司工作,负责检查银行系统的健壮性。
他告诉BioInform这个特别项目的想法来自一篇新闻报道,一名15岁的男孩在向基因谱系服务机构Family Tree DNA提交样本后,成功地在网上找到了他的生父。这名年轻人的Y染色体数据与数据库中的两个人匹配,这两个人的姓氏都与他相似。
“我想……我们能从全基因组测序数据中做同样的事情吗?”Erlich设计说。
利用Erlich和他的同事开发的用于分析str的算法lobSTR,研究人员从提交给法国人类多态性研究中心CEPH的样本中获得了Y-STR单倍型,该研究由犹他大学进行分析。
因为Y染色体和姓氏一样是由父亲传给儿子的,所以姓氏和Y染色体上的DNA之间有很强的相关性。认识到这种相关性,系谱学家和基因系谱公司已经建立了可公开访问的数据库,允许用户使用Y-STR等位基因搜索匹配记录。这些结果通常包含姓氏以及其他数据,如地理和血统信息
通过一种被称为“姓氏推断”的方法,研究人员通过向遗传谱系数据库提交Y-STR单倍型来发现这些男性的姓氏。
然后,研究小组通过从互联网资源(如公共记录搜索引擎、讣告档案、家谱网站和来自NIGMS人类遗传细胞库的人口统计元数据)中寻找匹配信息,追踪使用恢复的姓氏的个人。
据该论文称,研究人员总共在美国找到了近50名男性和相关女性。
研究人员不打算透露研究中确定的个人姓名。
与此同时,美国国立卫生研究院表示,它已将Erlich团队所做的工作通知了犹他大学CEPH原始研究收集的主要研究人员,而他反过来也联系了他的机构审查委员会。
在一封电子邮件中,NHGRI政策、沟通和教育部门主任劳拉·莱曼·罗德里格斯告诉记者BioInform该大学的IRB将处理任何“与参与者利益有关的决定,以及在这种情况下任何可能的联系。”
暴露的风险
由于这种方法利用了父系遗传特征,研究小组指出,来自单个个体的遗传数据可以揭示深层的家谱关系,并导致识别出一个远亲,而这个远亲可能与发布遗传数据的人并不相识。
这意味着,“例如,如果你的叔叔戴夫将他的DNA提交到遗传谱系数据库,你就可以被识别出来,”埃利希实验室的成员、该研究的第一作者梅丽莎·金瑞克(Melissa Gymrek)说科学纸,在一份声明中说。她补充说:“事实上,即使是你从未见过面的四堂兄帕特里克,只要他的DNA在数据库中,他也能认出你,只要他与你有父系关系。”
埃利希和同事们认为,这种不必要的接触风险只会增加。
他们写道,目前“至少有8个数据库和众多的姓氏项目网站,总共包含数十万个姓氏单倍型记录。”
研究人员写道,火上浇油的是,“基因谱系爱好者每月都会向这些数据库添加数千条记录。”与此同时,他们说:“具有更长的reads的第三代测序平台的出现将使Y-STR标记的覆盖率更高,进一步加强单倍型和姓氏的联系能力。”
那么解决方案是什么呢?
研究人员认为,解决这一问题需要更明确的数据共享政策,更好地教育参与者关于遗传研究的好处和风险,以及指导正确使用遗传数据的立法。
在评论参与者教育问题时,Erlich指出,提供给CEPH研究人员的重新同意文件——要求允许他们的样本被纳入HapMap和1000个基因组项目——已经明确了重新识别的风险。
事实上,埃利希和他的同事能够使用这些数据的原因是,尽管存在这些风险,研究人员已经同意使用他们的数据,他说。
但他说,并非所有使用基因组信息的研究都是如此。
他说,当志愿者同意参加研究研究时,应该向他们提供所有事实,以便他们了解在数据安全方面“我们现在处于什么位置”,然后他们可以决定是否参加。
在立法方面,埃利希和他的同事们认为,对话需要超越仅仅保护人们的隐私,转向防止滥用基因数据的政策,这是更主要的担忧之一。
他说,开发新的算法,既能保护数据,又不会给数据共享活动带来不必要的负担,也是有益的。
研究人员尝试了几种数据保护方法。例如,他们在论文中解释说,他们研究了屏蔽Y- str,但当他们意识到有可能从Y染色体上的snp中“植入”Y- str单倍型时,他们放弃了这个想法。
事实上,该论文指出,一个项目已经开始探索y - snp和姓氏之间的联系,这可能会绕过被掩盖的y - str。
另一个选择是限制遗传谱系信息,但研究人员认为这是一个不切实际的解决方案,因为数据“分散在多个最终用户网站和谱系邮件列表中”。
埃利希说:“尽管我们尝试了几个月,但我们没有找到方法。”但“我相信社区里有人可能比我们做得更好。”
与此同时,据NHGRI的罗德里格斯说,NIH也在采取自己的措施。
她说:“一段时间以来,我们和NIH的其他人一直在积极思考和监测这个问题,无论是通过与制定和实施当前全基因组关联研究数据共享政策相关的讨论和监督活动,还是通过“与社区进行更有重点的对话”。
“我们将两者都分享科学她说,“这样我们就可以与他们深入讨论科学发现,以及推进我们政策评论中提出的对话的选项。”