对象检测数据集和度量
以较少的偏差构建更大的数据集对于开发高级计算机视觉算法至关重要。在目标检测方面,在过去的10年里,已经发布了一些著名的数据集和基准。
数据集:Pascal VOC
PASCAL视觉对象类(VOC)挑战赛(2005-2012)是早期计算机视觉领域最重要的比赛之一。PASCAL-VOC的两个版本主要用于目标检测:
- VOC07:5K TR。图像+12000个带注释的对象
- VOC12:11K TR。图像+27k带注释的对象
这两个数据集中标注了生活中常见的20类对象:
- 人:人
- 动物:鸟、猫、牛、狗、马、羊
- 交通工具:飞机、自行车、轮船、公共汽车、汽车、摩托车、火车
- 室内:瓶子、椅子、餐桌、盆栽、沙发、电视/显示器
数据集:ILSVRC
ImageNet大规模视觉识别挑战赛(ILSVRC)(2010-2017)包含一项使用ImageNet图像进行检测的挑战。ILSVRC检测数据集包含200类可视对象。其图像/对象实例的数量比VOC大两个数量级。例如,ILSVRC-14包含517K图像和534K注释对象。
数据集:MS-COCO
MS-COCO(自2015年开始竞争)是目前可用的最具挑战性的目标检测数据集。它的对象类别比ILSVRC少,但对象实例多。例如,MS-COCO-17包含来自80个类别的164k图像和897k注释对象。与VOC和ILSVRC相比,MS-COCO最大的进步是除了边界框注释之外,还使用逐实例分割的方法进一步标记每个对象,以帮助进行精确定位。此外,与VOC和ILSVRC相比,MS-COCO包含更多的小对象(其面积小于图像的1%)和更密集的对象。所有这些特点使得MS-COCO中的对象分布更接近真实世界。
数据集:打开的图像
开放图像检测(OID)挑战赛(自2018年开始)包含两个任务:1)标准对象检测,2)视觉关系检测,检测特定关系中的配对对象。对于对象检测任务,数据集由1910k个图像组成,其中15440k个带注释的边界框位于600个对象类别上。
其他检测任务的数据集
除了一般的目标检测,过去20年也见证了特定领域检测应用的繁荣,如行人检测、人脸检测、文本检测、交通标志/信号灯检测和遥感目标检测。有关不同应用的数据集的详细信息,请参阅原文。
目标检测评价指标
近年来,最常用的目标检测评价方法是“平均精度”(Average Precision,AP),它最初是在VOC2007中引入的。AP定义为不同召回下的平均检测精度,通常按类别进行评估。为了比较所有对象类别的性能,通常使用所有对象类别的平均AP(MAP)作为性能的最终度量。
为了测量目标定位精度,使用联合交集(IOU)来检查预测框和地面真实框之间的IOU是否大于预定义的阈值,例如0.5。如果是,则该对象将被标识为“检测成功”,否则将被标识为“未命中”。多年来,基于0.5-IOU的MAP已成为目标检测问题的事实上的衡量标准。
2014年后,由于MS-COCO数据集的普及,研究人员开始更加关注包围盒位置的准确性。MS-Coco AP不使用固定的IOU阈值,而是在0.5(粗略本地化)到0.95(完美本地化)之间的多个IOU阈值上取平均值。度量的这种改变鼓励了更精确的对象定位,并且可能对一些现实世界的应用非常重要。
近年来,在开放图像数据集的评价方面有了一些新的进展。然而,基于VOC/COCO的MAP仍然是用于目标检测的最常用的评估度量。
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/21/%e2%80%8a-%e2%80%8a%e7%9b%ae%e6%a0%87%e6%a3%80%e6%b5%8b20%e5%b9%b4%e8%ae%ba%e6%96%87%e9%98%85%e8%af%bb%e7%bb%bc%e8%bf%b0%e5%9b%9b/