纽约——上周在巴塞罗那举行的全球基因组学与健康联盟(GA4GH)年度全体会议上发言的专家表示,基因组医学中的人工智能应用有能力改变医疗保健,但仍处于早期阶段,面临许多挑战。
此外,随着医学和生命科学领域与信息技术产业的交叉,基于人工智能的基因组医学将发生完全不同的思维方式的碰撞,导致关于正确前进道路的更复杂的问题。vwin德赢ac米兰合作
“这是两个不同的领域,有着非常不同的文化,非常不同的激励结构,(和)不同的道德方法,在非常不同的监管约束下运行,”伦敦艾达·洛夫莱斯研究所(Ada Lovelace Institute)的研究员哈利·法默(Harry Farmer)在会议上表示。
“最大的问题是,当这两种文化融合时,谁的文化会成为主导文化,会发生什么,以及如何调和,”法默说,他的演讲涵盖了人工智能和基因组学的社会影响。
自3月以来,Ada Lovelace研究所和总部位于伦敦的纳菲尔德生物伦理委员会开展了这项研究人工智能与基因组未来该研究项目旨在探索人工智能将如何改变基因组学,以及这对个人和社会意味着什么。法默说,该项目将深入研究这两个领域合并后的伦理、政治和经济后果,并最终根据研究结果提出建议。
法默指出,人工智能和基因组学是“非常广泛的术语”,参与人工智能和基因组未来的研究人员决定关注基因组分析,排除基因组编辑,以及对非人类对象的研究。他指出,人工智能和基因组未来公司不仅对医学基因组学感兴趣,还希望更好地了解它是如何在各种情况下使用的。
该项目分为多个阶段,包括文献综述、文献计量分析和“地平线扫描练习”,其中包括就人工智能和基因组学未来十年的趋势采访专家。法默说,研究人员已经接近扫描部分人工智能和基因组未来的水平。他们还将在一个阶段探索如何塑造人工智能和基因组学的应用,以最好地解决出现的社会问题。
正如法默强调的那样,人工智能和基因组学本身都提出了与人类代理、隐私、偏见和权力有关的“巨大伦理问题”。综合起来,这些问题只会变得更加复杂。他描述的一些挑战包括数据的隐私性、准确性和使用扭曲数据集生成算法所产生的内置偏差。
“基因组数据很难匿名化,而且很敏感,”法默说。他补充说,鉴于人工智能在基因组学应用方面的飞速发展,很难提供知情同意,因为尚不清楚受试者的数据未来将如何使用。
尤其是少数族裔,正处于法默所说的“双重困境”中。他们历来对提供数据持怀疑态度,如果他们不提供数据,也不太可能从人工智能驱动的基因组医学中受益,这种情况可能导致有偏见的结果。
人工智能驱动的基因组学也存在测试偏差的问题,因为“许多人工智能系统像黑匣子一样运行,其决策过程是模糊的。”知识产权也将引发争议,因为一些人对人工智能系统产生的数据的所有权存在分歧。“公众认为他们拥有自己的基因组数据,”法默说,“他们有权利使用这些数据。”
位于墨西哥城的临床和分子实验室Genómica Médica的首席执行官杰拉尔多·希门尼斯·桑切斯(Gerardo Jimenez Sanchez)也提醒人们注意在基因组学中实施人工智能所面临的挑战。
希门尼斯·桑切斯(Jimenez Sanchez)在演讲中说:“这将如何运作存在严重的问题。”他指出了人工智能系统的可信性问题,以及可能加强和编纂偏见的危险。为了避免产生这种固有的缺陷,Jimenez Sanchez说,开发算法的研究人员需要有不同的数据集。
希门尼斯·桑切斯说:“显然,如果一开始就没有一个充分代表种族、性别等方面的数据库,就有可能得出不正确的结论。”他说:“我们需要更好的代表权,不仅因为这是公平的,而且因为这是明智的,这样才能取得更好的结果。”
人工智能公司Owkin的数据科学家Khalil Ouardini对此表示赞同。他在会上表示:“机器学习模型应该在尽可能多的外部数据集上进行基准测试。”“一些人口统计学和临床价值应该受到控制。”
Ouardini还建议开发人员测试算法中的失败。他说,虽然没有标准的工具来做到这一点,但他们应该时刻意识到它们可能存在,并寻找它们。
Jimenez Sanchez指出,成本效益也是一个问题,因为管理这样的数据集成本很高,开发人员需要有创造力,“否则他们的全部预算都会花在那里。”Jimenez Sanchez的说法得到了Farmer的回应,他还提到管理这些数据资源对环境的影响也应该考虑在内。
此外,Jimenez Sanchez说,研究人员需要验证他们在人工智能方面的发现。
他说:“我们不要认为,通过做人工智能,我们就不必回到实验室进行功能分析或临床试验。”
不过,他强调,考虑到已经产生的数据量,在基因组学方面对人工智能的需求是真实的。他还说,到目前为止已经有一些成功的故事,引用了使用计算机辅助模式识别平台,以及依赖全基因组测序数据的基因疾病诊断自动化虚拟系统Genome-to-Treatment。一个纸对后者的描述出现在自然在7月。
在他的演讲中,Owkin的Ouardini也强调了HE2RNA该公司声称,该深度学习模型可以基于数字化的组织病理学图像预测肿瘤的RNA-seq表达。考虑到癌症预后问题的答案取决于大量的因素,如测序和组织病理学数据,Ouardini说,使用人工智能进行多模态数据集成是有意义的。“对于癌症研究来说,合并变得越来越重要某种分子层面的空间信息,”他说。
虽然这种新资源的增加是“令人兴奋的”,但Jimenez Sanchez表示,该领域仍处于非常早期的阶段。桑切斯说:“有一些成功的故事,但我们不要急于求成。“要意识到,前面的路很长,我们需要迎接挑战。我相信我们总有一天会实现这一目标。”