概述了用于机器学习的数据管理工具,并对每个工具进行了诚实的回顾。
“策展”一词通常与博物馆或图书馆联系在一起,而不是与数据科学联系在一起。然而,就像对稀有绘画或书籍所做的工作一样,数据管理工具使工程师在构建复杂的机器学习模型时可以轻松地访问最重要的数据。
如果没有精选,就很难找到、分析和解释数据。数据管理工具提供有意义的洞察力,并在一个位置持久访问您的所有数据。在本文中,我们将专门探讨数据整理对计算机视觉的重要性,并回顾当今市场上的顶级数据整理工具。
什么是数据管理?
数据管理是组织、增强和保存数据以供将来使用的行为。在机器学习中,数据管理描述了对数据整个生命周期的管理:从数据的收集和最初的存储,到存档以备将来重用。
这一过程对计算机视觉工程师来说更加重要,他们每天都要处理大量的视觉数据。与使用编写ETL作业等手动方法提取洞察力不同,数据管理工具提供了一种简化的方式来随时访问正确的数据。
数据整理对机器学习的重要性
在幕后,数据管理工具直接影响计算机视觉模型的性能。使用数据管理工具,工程师可以更好地了解他们收集的数据,识别最重要的子集和边缘情况,并管理自定义训练数据集以反馈到他们的模型中。
最好的数据管理工具使您能够:
用于计算机视觉的数据管理工具
随着铺天盖地的AI产品和平台年年涌现,你怎么知道哪些会提供最大的价值?请继续阅读下面的内容,探索最新的数据管理工具,以确定哪种工具最适合您的计算机视觉项目。
水族馆学习
水族馆是一个数据管理平台,旨在轻松识别标签错误和模型故障。有了水族馆,用户可以对模型预测进行版本化,并将模型预测与他们的基本事实结合起来。Aquarium
水族馆特别专注于管理和维护培训数据集,较少迎合原始数据管理用例。这是因为水族馆中的数据探索主要与模型预测和地面事实标签捆绑在一起。
用户可以通过自己的云平台或API访问水族馆。但是,它们目前不提供内部部署或vPC部署,也没有外部集成。
主要功能:
- 广泛的使用案例-水族馆支持图像、3D、音频和文本数据。它们还支持多种注释类型,如分类、检测和分割。
- 交互式模型评估-用户可以操作评估阈值并获得交互式可视化,以快速获取所需的样本。
- 协作功能-用户可以在Aquarium平台上相互协作,构建数据子集,将其与问题相关联,并识别新数据进行注释。
五十一号
由Voxel51开发的FixtyOne是一个用于可视化和解释计算机视觉数据集的开源工具。该工具由三个组件组成:Python库、Web应用程序(GUI)和Brain。
FityOne不包含任何自动标记功能,因此最适用于以前已批注的数据集。此外,该工具仅支持图像和视频数据,目前不支持多模式传感器数据集。
与其他工具不同,FityOne被设计为供个人开发人员使用,而不是团队使用,其功能类似于编程IDE。如今,该平台缺乏协作功能;例如,单个实例不能托管多个用户帐户。
主要功能:
- 模型和数据集动物园-FityOne利用TF和Pytorch数据集动物园提供对各种开放数据集和开源模型的访问。
- 高级数据分析-通过单独的闭源Python包Brain,用户可以定量评估数据的唯一性、错误性和硬性。
- 外部集成–FityOne直接与LabelBox等流行的注释工具集成。它们还与Jupyter和Colab笔记本紧密集成,使用户可以轻松地通过Python笔记本运行FityOne。
鳞片状核
Nucleus于2020年底按规模推出,是投放市场的最新数据管理工具之一。Nucleus平台允许用户协作搜索图像数据以查找模型故障。到目前为止,Nucleus只支持图像数据,不支持3D传感器融合、视频或文本数据。Scale
用户可以通过云平台、API或Python SDK访问Nucleus。目前,Nucleus不支持内部部署。
主要功能:
- 视觉相似性-用户可以基于一个或多个基本样本搜索视觉相似的图像,并将自定义标签与其关联。
- 元数据架构-使用Nucleus SDK,用户可以创建灵活的元数据架构。Nucleus提供了使用提供的注释格式检测和创建模式的智能方法。
- 模型版本控制-用户可以创建模型实体并将相应的运行与其关联。因此,可以基于运行(数据集和预测)对模型进行版本化。
克拉里费
Clarifai是一个端到端的解决方案,用于标记、搜索和建模非结构化数据。作为最早的人工智能初创公司之一,它们提供了一个对图像、视频和文本数据进行建模的平台。虽然Clarifai最初的重点是让用户构建自定义模型,但他们最近添加了几个数据管理功能,包括自动标记、视觉搜索和注释。Clarifai
归根结底,Clarifai更像是一个建模平台,而不是一个开发工具。它们最适合相对缺乏经验的团队开始使用ML用例。
主要功能:
- 即用型模型库-Clarifai提供了一个广泛的预建AI模型库,包括从食物到面部识别的任何东西。
- 数据类型广泛-该平台支持图像、视频和文本数据。
- 模型自定义-使用该平台,用户可以自定义或重新培训现有模型,或者从头开始创建新模型。
- 数据标注-除了建模平台之外,Clarifai还通过其Scribe LabelForce数据标注服务提供完全托管的标注服务。
SiaSearch
SiaSearch是一个计算机视觉数据管理平台。SiaSearch由一个可伸缩的元数据目录和查询引擎组成,使开发人员能够轻松地搜索可视数据,向框架和序列添加元数据,以及为培训或测试组装自定义的数据子集。SiaSearch
SiaSearch平台在自动驾驶方面有着深厚的根基,许多OEM、Tier 1和科技公司都在使用。除了自动驾驶,SiaSearch还为机器人、零售等提供解决方案。
主要功能:
- 专门研究传感器数据-SiaSearch是仅有的支持3D传感器融合数据的工具之一,可以分析大量非结构化传感器数据,提供帧和序列级别的洞察力。
- 自动标记功能-SiaSearch使用大量经过预先训练的提取器来自动向原始数据添加帧级别的上下文元数据。此外,SiaSearch提供了一个工具箱,用于快速开发提取器,允许开发人员集成他们自己的提取器。
- 快速性能-SiaSearch平台采用独特的专有架构,将数字查询和基于序列的查询相结合,以实现显著更快的性能。
- 灵活的工作流和集成-用户可以通过其基于Web的GUI或编程API访问SiaSearch。SiaSearch还支持企业用户的云或内部部署。
对数据管理感兴趣吗?
正确的数据管理工具可以极大地减少手动流程所花费的时间,使工程师能够专注于真正重要的事情-构建出色的模型。
主导形象来源:托拜厄斯·费舍尔(Tobias Fischer)谈Unspash
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/15/2021%e5%b9%b4%e8%ae%a1%e7%ae%97%e6%9c%ba%e8%a7%86%e8%a7%89%e7%9a%84%e6%95%b0%e6%8d%ae%e5%a4%84%e7%90%86%e5%b7%a5%e5%85%b7/