芝加哥-本体开发工具包(ODK)在作为测试版首次出现在网上近7年后,已经成熟成为一个开源软件包,被几十个生物医学本体的开发人员和维护人员使用。
ODK旨在实现开放生物和生物医学本体(OBO)代销商的原则,这是一个本体开发人员社区,致力于简化和标准化流程并促进互操作性。
加州伯克利劳伦斯伯克利国家实验室生物系统数据科学负责人Christopher Mungall说:“这让你相信,本体论已经以标准、一致的方式设计好了。”
Mungall是欧洲分子生物学实验室欧洲生物信息学研究所(EMBL-EBI)的David Osumi-Sutherland和Nicolas Matentzoglu等开发人员中的一员,他们从一开始就参与了ODK的开发。Mungall说,作为OBO的成员,“(我们)试图松散地协调多年来开发本体的不同人员的努力”。
Mungall是第一作者,Osumi-Sutherland是通讯作者纸上月发表于数据库:《生物数据库与策展杂志》,描述了本体开发工具包的开发和实用。
Mungall和David Osumi-Sutherland过去曾在多个本体上进行合作。Mungall编写了Uberon的最初版本,Osumi-Sutherland现在是该软件的领导者。他们还在单细胞测序的细胞本体上进行了合作。
ODK由两个基本组件组成,一个是用于构建和管理本体的一系列工作流,一个是用于执行工作流的工具箱。“ODK简化了维护本体的过程,允许(本体开发人员)专注于维护的内容,而不是技术方面,”论文称。
工作流遵循OBO Foundry推荐的构建脚本、发布更新、运行质量检查以及从其他本体导入术语的最佳实践。工具箱以Docker包的形式呈现。
Mungall是许多本体相关项目的首席研究员,其中包括基因本体联盟君主倡议和表型学第一。它们可能都使用相同的本体开发工具Protégé,但它们以截然不同的方式管理文件。
Mungall说:“我们没有他们所制作的本体文件的版本控制的良好实践。”GitHub允许版本控制,但每个GitHub存储库的布局不同,有不同的工作流和检查本体准确性的过程。
Mungall说:“我们意识到有必要从本质上标准化这些工作流,并允许人们提出一个通用的GitHub项目结构,这样人们就可以很容易地从一个本体到另一个本体。”
创建者说ODK现在参与了70多个生物医学本体的维护,包括人类表型本体、细胞本体、跨物种Uberon、表型和特征本体(PATO)、大脑数据标准本体和临时细胞本体(PCL)。
各种本体的拥护者和开发者大多是通过口口相传的方式发现和采用ODK,而且绝大多数是翻译研究。Mungall说:“尽管它可以用于任何本体,但我们最感兴趣的是支持那些打算成为OBO一部分的本体。”然而,他补充说,“欢迎采用更广泛的临床术语”ODK。
根据Mungall的说法,现有的本体很难向后迁移到ODK,所以一些用户只部分采用了ODK。“他们将使用Docker容器或类似的东西(所以他们不会)改变他们的整个结构以完全兼容odk,”他说。
“我们关心的主要事情是新的本体,”Mungall说。
此工具包的一个关键目标是将文档标准化。例如,ODK查找不一致的数据。Mungall指出:“一个同时被标注为t细胞和神经元的样本很可能是错误的。”
Mungall说:“我试图传达的信息是,将我们从健壮的软件开发中学到的东西也应用到本体开发中。”“我们只是试图把我们从最佳实践中学到的所有东西融合到本体开发中。”
Shawn Tan与EMBL-EBI的Osumi-Sutherland和Huseyin Kir共同领导了临时细胞本体论的开发,尽管这个本体论实际上来自美国J. Craig Venter研究所信息学主任Richard Scheurmann实验室的单细胞转录组学工作。
Tan解释说:“我们的想法是,这些细胞类型还没有完全准备好作为细胞本体的临时存储场所。”
Tan表示,ODK允许像PCL这样的本体更加灵活和协作,并允许本体开发人员轻松地执行动态输入等操作,并确保它们保持最新并与其他本体兼容。
“ODK是一个社区驱动的工具,”Tan说,它不是由会员费或直接拨款资助的。研究人员对ODK和特定本体的开发和维护做出了贡献,因为他们帮助他们更好地完成工作。
临时细胞本体参与了美国国立卫生研究院新的5亿美元的研究脑活动细胞图谱网络(BICAN)该项目试图通过单细胞测序、非侵入性医学成像和高级生物信息分析来绘制大脑中大约2000亿个神经元和其他细胞的图谱。该集团也参与了早些时候大脑倡议细胞普查网络(BICCN).
EMBL-EBI与BICCN的大部分工作,观察了小鼠和人类的初级细胞皮层,涉及到单细胞的转录组学,细胞类型仍然需要注释。
Tan说,他在EMBL-EBI的团队正在“非常非常认真地”研究这个临时本体,为BICAN做准备。他说:“与BICCN相比,这个数据集将是巨大的,BICCN是非常巨大的。”
Tan说,当PCL开发人员试图将他们的工作与已经采用了该工具包的Cell Ontology集成时,他和他的同事开始接触ODK。他说:“我们的目标也是让[PCL]进入开放生物医学本体代工厂。”
Tan还表示,对于像他这样没有接受过软件工程培训的人来说,ODK是一种参与本体开发和维护的简单方法。
他说:“有了这样的东西,我就可以使用各种各样的工具,这是我个人无法独自操作的。”“对我来说,另一个重要的事情是我们可以作为一个社区一起工作。”
“当我们知道我们使用的是什么工具时,解决问题、排除故障都变得容易得多,”Tan说。
ODK也支持“社会编码”,开源软件开发的协作方法。
“我们都为这个本体论做贡献,这个本体论是一个社区工具,”Tan说。“我们认为这有助于社区更多地参与本体构建,希望这意味着本体更接近生物学家想要的。”
的最新更新ODK的1.3.1版本于6月发布。
论文的作者说,他们“已经观察到在许多使用ODK的本体中错误率显著降低,这要感谢ODK提供的自动测试系统的能力,可以在早期捕获错误”,但他们没有详细说明。
ODK将定期更新新特性,包括新的质量控制测试和其他调整,创建者称这些特性将遵守FAIR原则,即数据可查找、可访问、可互操作和可重用。
根据这篇文章,目前的版本并不是为了防止“糟糕的本体建模”而构建的。作者写道:“我们希望能够更好地利用基于设计模式的验证和高级语义验证技术,”包括有助于防止人为错误的链接开放数据建模语言(LinkML)。
然而,ODK的创建者在论文中表示,未来的版本将使工作流与其他框架中的工作流协调一致,具体命名为OntoAnimals和一个名为Ontofox,一个用于搜索本体工具和公理的工具。