1. 磐创AI首页
  2. Medium

稀疏R-CNN - 关键思想和直觉之路

简要解释了以前的SOTA目标检测模型和稀疏R-CNN带来的创新。

稀疏R-CNN是在2021年计算机视觉与模式识别(CVPR)大会上提出的一种新的SOTA算法。它比它的前辈更快,在某些情况下还更好。但是,它提出了哪些新的解决方案,与以前有何不同?在这篇博客中,我将尝试解释对象检测是如何发展起来的,最后,我将向您展示新的最先进的机器学习模型是如何工作的背后的直觉。

两阶段目标检测

两阶段目标检测分组算法首先提出一些目标最有可能存在的区域。第一个叫R-CNN的是基于选择性搜索的。这里的想法很简单,我们不想把我们的箱子放在R-CNN selective search

随机的,我们也不想要大量的。记住,盒子可能很小,也可能很大,位置和形状各不相同。这就是为什么看颜色、质地和大小更好的原因。这就是为什么有CNN专题的地区(R-CNN)是一个很好的组合。我们得到的不是几十万个箱子,而是大约2000个人口稠密的箱子。然而,这个算法非常慢,每张图像需要40-50秒。继任者Fast R-CNN和更快的R-CNN加快了这种缓慢的处理速度。在这篇博客中,我将只关注后者。R-CNN Fast R-CNN Faster R-CNN

更快的R-CNN由两个模块组成,第一个模块是区域提案网络(RPN),第二个模块是使用ROI池,然后对包围盒进行分类和回归。基于要素地图的RPN输出

矩形建议及其客观性得分(不是看特定的对象类,而是看存在对象的概率)。它是一种通过最后一卷积层的输出使用滑动窗口的神经网络。每个窗口都有几个边框(最初为9个),其比例和纵横比各不相同。因此,例如,对于典型的卷积特征图,可能有超过10000个边界框建议,然后对其进行分类和回归。

单级目标检测

两阶段检测通常更准确和精确,但它缺乏用于真正实时场景的速度。最著名的一阶段目标检测算法是YOLO算法,它简单明了,在基准数据集上取得了很高的分数。它是一个单一的神经网络,它使用整个图像的特征来预测每个边界框。这就是为什么它适合实时运行的原因。但是,它有一些限制,例如,检测较小的对象或彼此靠近的对象。已经开发和改进了YOLO算法(在撰写本文时,有5个版本的YOLO)。但我将重点介绍Sun等人在2021年引用的一个模型,即RetinaNet。YOLO Sun et al., 2021 RetinaNet

RetinaNet的主干是功能金字塔网络(FPN),它帮助检测不同尺度的物体。它建在ResNet的顶部。在图像棱锥体中的每个图像处,都有几个具有不同纵横比的锚点(最初为9个)。这些子图像被馈送到分类子网和回归子网。对于所有金字塔层次,分类卷积神经网络子网和盒子网具有相同的参数。RetinanNet的主要归因是一种新的称为焦点丢失的丢失。它侧重于减轻前景和背景对象之间的类不平衡的影响。

稀疏R-CNN有什么不同?

稀疏R-CNN是一种两阶段目标检测算法。它拒绝了密集候选区域的想法。作者指出,即使考虑到更密集的场景(例如人群),这样的建议也大多是多余的。图像中的潜在对象过多会使预测器变得比需要的速度慢。稀疏R-CNN只使用少量固定数量的潜在方框(在COCO数据集中,他们只需要100个初始方框)。该方法在使用稀疏框和稀疏特征的情况下表现突出,这两种稀疏特征都可以通过模型训练来学习。COCO

它怎麽工作?

这些框最初是随机生成的。然后,通过反向传播,盒子的放置被优化,所以如果某些类通常位于右上角,则会在那里放置几个盒子。作者建议,可以将其解释为查看潜在物体位置的统计数据。例如,如果一个类别是地毯,那么一些盒子会更宽,并放置在图像的底部。

另一项创新是可学习的提案功能,它与许多方框相同。期望特征不仅编码定位,而且编码姿势、纹理、形状等。这是在相互交互的ROI特征和建议特征的帮助下完成的(通过这种交互,意义较小和有偏见的特征将被过滤掉)。对于每个边界框建议,我们现在都有一个特定的编码,希望这将使未来的预测过程变得更容易。它是在所谓的动态实例交互头中完成的。

然后,每个特征和每个框被馈送到以特征为条件的动态实例交互头中,然后执行分类和边界框回归,如下图所示。

它有多好吃?

在MS Coco基准测试中,它更快(由更高的每秒帧数(FPS)表示),并且对于较小的对象(由小对象的平均精度(AP)表示)明显更好。

事实证明,它也比它的前身更容易训练。这意味着用更少的计算时间,因此我们可以得到更好的结果。

摘要

目标检测领域已经走了很长一段路。通过创新,它以更少的计算能力实现了更好的性能。这样的系统通过pytorch或TensorFlow等库也比较容易实现。新的最先进的物体探测器的代码可以在这里找到。如果你想阅读更多关于物体检测领域的发展,我建议你阅读一篇关于物体检测的调查。如果你想知道更多关于稀疏R-CNN的细节,这里有一篇很棒的文章。here survey on object detection excellent article here

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/08/03/%e7%a8%80%e7%96%8fr-cnn%e2%80%8a-%e2%80%8a%e5%85%b3%e9%94%ae%e6%80%9d%e6%83%b3%e5%92%8c%e7%9b%b4%e8%a7%89%e4%b9%8b%e8%b7%af/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息