1. 磐创AI首页
  2. Medium

面向计算机视觉的开源数据集

使用开源数据集训练的计算机视觉模型

计算机视觉(CV)是人工智能(AI)和机器学习(ML)领域中最令人兴奋的领域之一。它是许多现代AI/ML管道的主要组件,它正在改变几乎每个行业,使组织能够彻底改变机器和业务系统的工作方式。Computer Vision

几十年来,CV在学术界一直是计算机科学的一个成熟领域,多年来,人们在这个领域进行了大量的研究工作,以使其变得更好。然而,深度神经网络的使用最近给该领域带来了革命性的变化,并为其加速增长提供了新的燃料。

计算机视觉有多种应用领域,例如,

  • 自动驾驶
  • 医学影像分析与诊断
  • 场景检测与理解
  • 自动生成图像字幕
  • 社交媒体上的照片/面部标签
  • 家庭安全
  • 制造业中的缺陷识别与质量控制

仔细选择合适的开源数据集

对机器进行图像和视频文件培训是一项严重的数据密集型操作。单一图像文件是一个多维、多兆字节的数字实体,在整个˜智能图像分析(™˜)任务的上下文中,它只包含一小部分“EUROURE˜Insight?EURE™”(欧洲智能图像分析?EURO˜)任务中的一小部分。

相比之下,类似大小的零售额数据表可以更深入地了解ML算法,而在计算硬件上的支出相同。在讨论现代CV管道所需的数据和计算规模时,这一事实值得记住。

因此,在几乎所有情况下,数百(甚至数千)个图像不足以训练用于CV任务的高质量ML模型。几乎所有的现代CV系统都使用复杂的DL模型结构,如果没有提供足够数量的精心选择的训练样本(即标记图像),它们将保持不适合。因此,健壮的、可推广的、生产质量的DL系统通常需要数百万精心选择的图像来训练,这正成为一种非常普遍的趋势。

热门人工智能文章:

此外,对于视频分析,给定从大量视频流获得的视频文件或帧的动态性质,选择和编译训练数据集的任务可能更加复杂。

在这里,我们列出了一些最受欢迎的(包括静电图片和视频剪辑)。

计算机视觉模型的流行开源数据集

并非所有数据集都同样适用于所有类型的CV任务。常见CV任务包括:

  • 图像分类
  • 目标检测
  • 对象分割
  • 多对象注释
  • 图像字幕
  • 人体姿态估计
  • 视频帧分析

我们展示了一个流行的、开源的数据集列表,涵盖了这些类别中的大部分。

ImageNet(最知名的)

ImageNet是一项正在进行的研究工作,旨在为世界各地的研究人员提供一个易于访问的图像数据库。它可能是目前最知名的图像数据集,被研究人员和学习者引用为黄金标准。ImageNet

这个项目的灵感来自于图像和视觉研究领域不断增长的情绪-需要更多的数据。它是根据WordNet层次结构组织的。wordnet中每个可能由多个单词或词组描述的有意义的概念被称为欧元同义词集(œ�)或欧元同义词集(œ�)。WordNet中有超过10万个同义词集。同样,ImageNet的目标是平均提供1000张图像来说明每个同义词集。

ImageNet大规模视觉识别挑战赛(ILSVRC)是一项全球年度比赛,旨在评估大规模目标检测和图像分类的算法(由大学或企业研究小组提交)。一个高水平的动机是允许研究人员利用相当昂贵的标记工作来比较更广泛种类的物体(欧元)在检测方面的进展。另一个动机是测量用于检索和注释的大规模图像索引的计算机视觉的进展。这是整个机器学习领域最受热议的年度大赛之一。

CIFAR-10(适用于初学者)

这是该领域的初学者通常用来训练机器学习和计算机视觉算法的图像集合。它也是机器学习研究中最受欢迎的数据集之一,用于快速比较算法,因为它捕捉了特定体系结构的弱点和优势,而不会给训练和超参数调整过程带来不合理的计算负担。collection of images

它包含10个不同类别的60,000,32-32个彩色图像。这些类别代表飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。

MegaFace和LFW(人脸识别)

LFW(Label Faces In The Wild)是一个用于研究无约束人脸识别问题的人脸照片数据库。它包含5749人的13233张图片,这些图片是从网络上抓取和检测到的。作为一个额外的挑战,ML研究人员可以使用数据集中有两张或两张以上不同照片的1680人的照片。因此,它是人脸验证的公共基准,也称为配对(需要至少两张同一人的图像)。Labeled Faces in the Wild (LFW)

MegaFace是一个大规模的开源人脸识别训练数据集,是商业人脸识别问题最重要的基准之一。它包含672057个身份的4,753,320张脸,非常适合大型DL架构培训。所有图片都是从Flickr(雅虎™的数据集)获取的,并在知识共享协议下获得许可。MegaFace

IMDb-Wiki(性别和年龄识别)

它是最大的和开源的人脸图像数据集之一,带有性别和年龄标签用于训练。在这个数据集中总共有523,051张人脸图像,其中460,723张人脸图像来自IMDB的20,284位名人和62,328位维基百科的名人。largest and open-sourced datasets

MS COCO(目标检测和分割)

COCO或Context中的Common Objects是大规模的对象检测、分割和字幕数据集。该数据集包含91种对象类型的照片,这些照片很容易识别,在328k图像中总共有250万个带标签的实例。此外,它还为更复杂的CV任务提供了资源,例如多对象标记、分段蒙版注释、图像字幕和关键点检测。它得到了一个直观的API的很好支持,该API帮助在COCO中加载、解析和可视化批注。API支持多种注释格式。Common Objects in COntext

MPII人体姿势(姿势估计)

该数据集用于关节人体姿态估计的评估。它包括大约25K张图片,其中包含40K多个带有注释的身体关节的人。这里,每个图像都是从YouTube视频中提取的,并且在前面和后面都有未注释的帧。总体而言,该数据集涵盖了410个人类活动,并且每个图像都提供了一个活动标签。This dataset

Flickr-30k(图像字幕)

这是一个图像字幕语料库,由158,915个众包字幕组成,描述了31,783张图像。这是先前Flickr 8k数据集的扩展。新的图片和说明集中在参与日常活动和事件的人身上。Flickr 8k Dataset

200亿多岁(人类行动的视频剪辑)

该数据集是大量标签密集的视频剪辑的集合,这些视频剪辑展示了人类对日常对象执行预定义的基本动作。它是由大量的群组工作人员创建的,这使得ML模型能够开发对物理世界中发生的基本动作的细粒度理解。large collection of densely-labeled video clips

以下是在此数据集中捕获的常见人类活动的子集,

Barkley DeepDrive(用于自动驾驶车辆训练)

加州大学伯克利分校的Berkeley DeepDrive数据集包括超过100K的视频序列,带有各种注释,包括对象边界框、可驾驶区域、图像级标记、车道标记和全帧实例分割。此外,该数据集在表示各种地理、环境和天气条件方面具有广泛的多样性。Berkeley DeepDrive dataset

这对于训练自动驾驶车辆的健壮模型非常有用,这样它们就不太可能对不断变化的道路和驾驶条件感到惊讶。

为这些数据集选择合适的硬件和基准

不用说,只有这些数据集不足以构建高质量的ML系统或业务解决方案。要为任何学术或商业问题获得最佳解决方案,需要正确选择数据集、培训硬件以及智能的调优和基准测试策略。

这就是为什么高性能的™几乎总是与这些数据集搭配使用,以提供所需的性能。high-performance GPUs

GPU的开发(主要是为了迎合视频游戏行业)是为了使用数千个微小的计算核心来处理大规模的并行计算。它们还具有大内存带宽,以处理快速数据流(高速缓存到较慢的主存储器并返回的处理单元),当神经网络通过数百个历元进行训练时,这些计算需要这些数据流。这使得它们成为处理计算机视觉任务计算负荷的理想商用硬件。

然而,市场上有很多GPU的选择,这肯定会让普通用户不堪重负。在这方面,多年来已经发布了一些很好的标杆策略来指导潜在买家。良好的基准测试必须考虑多种类型的(A)深度神经网络(DNN)架构、(B)GPU和广泛使用的数据集(如我们在上一节中讨论的数据集)。

例如,这里的这篇优秀的文章考虑了以下几点,excellent article

  • 架构:RESNET-152、ResNet-101、ResNet-50和ResNet-18
  • GPU:EVGA(非鼓风机)RTX 2080 ti、GB(鼓风机)RTX 2080 ti和NVIDIA Titan RTX
  • 数据集:ImageNet、CIFAR-100和CIFAR-10。

此外,必须考虑性能的多个维度才能获得好的基准。

要考虑的绩效维度

主要有三个指数:

哪些开源数据集最适合您的计算机视觉模型?

在这篇文章中,我们讨论了获得高质量、无噪声的大规模数据集来训练复杂的DNN模型的必要性,这些模型在计算机视觉应用中逐渐变得无处不在。

我们给出了多个开源数据集的示例,这些数据集广泛用于不同类型的CV任务-图像分类、姿势估计、图像字幕、自动驾驶、对象分割等。

最后,我们还谈到了将这些数据集与适当的硬件和基准策略配对的需要,以确保它们在商业和研发领域的最佳使用。

如果您有任何问题,请随时联系我们或使用下面的评论部分。contact us

您还可以从SabrePC浏览定制的工作站和服务器,它们可以帮助您完成计算机视觉项目。custom built workstations and servers

别忘了给我们你的ğŸ‘�!

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/31/%e9%9d%a2%e5%90%91%e8%ae%a1%e7%ae%97%e6%9c%ba%e8%a7%86%e8%a7%89%e7%9a%84%e5%bc%80%e6%ba%90%e6%95%b0%e6%8d%ae%e9%9b%86/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息