芝加哥(GenomeWeb) -对世界来说,谷歌可能会和他们最好的人谈论人工智能,但在内部,互联网巨头回避这个词,特别是在生命科学和医学领域。
谷歌的科学倡导者Allen Day最近在布拉格举行的欧洲分子生物学智能系统计算生物学会议(ISMB/ECCB)上说,尽管如此,该公司在将技vwin德赢ac米兰合作术应用于这些市场方面继续取得进展,其中DNA测序分析是一个特别理想的应用。
戴在会上说:“现在有很多关于人工智能的宣传和品牌宣传,我们的营销部门当然和其他人一样有罪。”“我们的想法是,制造一个人工智能机器. ...实际上是相当困难的很难准确描述什么是智力。”
相反,西雅图的戴建议称其为机器学习——这是谷歌本身突出的术语"人工智能实验"的网页.人工智能本身是一个长期目标,有点像一个遥远的乌托邦。
“制造会学习的机器(比制造人工智能计算机)是一个更实际的问题,因为你可以设置某种目标函数,并讨论分类器,”戴在他近一个小时的演讲中解释道,尽管是与会者和欢乐时光之间的最后一件事,但他的演讲吸引了全神贯注的观众。
“如果你在监督下给机器提供某种标记数据,并建立某种测量机器预测误差的函数,”戴说,“你实际上可以取得进展,通过这个学习过程慢慢提高逼近某些未知函数的质量,最终,渐近地,从更远的地方接近这个人工智能的想法。”
他说,像他这样的生命科学家倾向于遵循的这种迭代策略“比构建某种需要记录的东西更容易,而工程师就是这样想的。”
拥有人类遗传学博士学位的生物信息学专家戴解释说,迄今为止,机器学习已经涉及到设计计算机要遵循的标准,以努力减少错误。
他说:“实现这一目标的新方法是不编写这些规则,而是告诉机器一些标记的数据,并允许它迭代地修改自己以减少错误,并在一个循环中重复这一过程,以便弄清楚内部的规则是什么,而不明确地告诉它这些规则是什么。”戴称其为“以身作则”。
他没有谈论人工智能系统,而是讨论了谷歌母公司Alphabet旗下公司的“深度神经网络”,包括DeepMind Technologies、Verily Life Sciences和Calico。大部分工作都是由Brain完成的,这是谷歌内部的一个研究团队,专注于生命科学和其他行业中的机器学习。
神经网络并不是新事物,但是现在有足够的数据和计算能力使这种网络更加普遍和精确。这使得设计师可以将许多层叠加在图层上。“我们可以建立任意深度的网络,”戴说。
“其他的,经典的方法比神经网络表现得更好,”戴说。“通过增加更多的计算能力,我们实际上已经越过了神经网络开始比传统手工调优模型表现更好的临界点。”
Day说:“关于这些神经网络的另一个有趣的事情是,它们是由层组成的,这为我们扩大算法提供了一个很好的范例。”“随着计算能力的提高,我们有能力添加更多的层。”
(谷歌的深度学习架构《盗梦空间》在2014年的一份报告中被描述过纸在《计算机视觉与模式识别.)
今年早些时候,谷歌基因和基因组学深度学习负责人Mark DePristo说话在美国癌症研究协会(American Association for Cancer Research)年会上,他谈到了该公司将机器学习应用于医学的努力。
在布拉格,戴重复了DePristo所说的一些内容,包括谷歌发现其深度神经网络在扫描视网膜图像以识别糖尿病视网膜病变高危患者方面比人类眼科医生更准确。戴说:“在这类医学成像领域,机器的表现一直优于人类。”
戴说:“对于一些图像来说,打分是非常主观的,(人类)评分者之间没有很好的一致性。”“对于图像的正确分类,他们自己或彼此不一定意见一致。”
戴说,盗梦空间只有在对13万张图像进行分类后,才能准确地帮助医生检测视网膜病变。
这家位于加州山景城的公司正试图在乳腺癌的早期检测方面做类似的事情。Day说,大约每12个病例中就有1个被活检结果误诊,要么是假阳性,要么是假阴性。戴表示,这可能是由于个别肿瘤医生持有的偏见。计算机没有这样的偏见。
“所有这些都运行得相当好。现在的问题是通过监管部门将其转化为临床市场。”
谷歌的技术真正做的是收集大量vwin德赢ac米兰合作数据来测量方差,随着数据库的增长,提高其计算机系统的准确性。
“你需要大量的训练数据,”戴指出。“你还需要高质量的输入数据和标签。”
这使得DNA测序成为应用机器学习的一个特别好的候选者,尽管并不总是涉及图像。
正如DePristo在4月份所说的,他的团队一直在开发一种深度学习算法,通过将测序数据编码为图像,并训练计算机从图像中确定基因型。Verily DeepVariant可以学会调用由许多不同测序技术生成的数据中的变体。
Day在ISMB/ECCB上说:“有一些特征良好的样本可用。”“分类器应该足够复杂,不容易用经典技术和标准机器学习技术解决。”
他说,来自下一代测序数据的单核苷酸多态性符合这一要求。
Day解释说:“这种不同的呼叫过程产生的错误可能来自很多不同的地方,这才是问题的根源。”目前用来估计变异存在或不存在的模型“假设这些错误模式在测序技术中都是相同的。”它还假设模式是独立的。
戴说:“我们认为这将是一个引入深度神经网络机器的好领域,看看它们是否能在该领域专家在过去几十年建立的基础上取得改进。”
这就是为什么谷歌基因组公司自2015年起与Broad Institute合作.这两个组织合作的第一件事是将远大的基因组分析工具包软件作为谷歌云上的托管服务提供。
Day称,根据目前的内部vwin德赢ac米兰合作评估,DeepVariant技术在人类基因组数据方面的表现优于GATK在正式出版前的.
Verily生命科学将算法引入PrecisionFDA真理的挑战并获得了SNP最佳表现奖。