简要解释了以前的SOTA目标检测模型和稀疏R-CNN带来的创新。

稀疏R-CNN是在2021年计算机视觉与模式识别(CVPR)大会上提出的一种新的SOTA算法。它比它的前辈更快，在某些情况下还更好。但是，它提出了哪些新的解决方案，与以前有何不同？在这篇博客中，我将尝试解释对象检测是如何发展起来的，最后，我将向您展示新的最先进的机器学习模型是如何工作的背后的直觉。

两阶段目标检测

两阶段目标检测分组算法首先提出一些目标最有可能存在的区域。第一个叫R-CNN的是基于选择性搜索的。这里的想法很简单，我们不想把我们的箱子放在R-CNN selective search

随机的，我们也不想要大量的。记住，盒子可能很小，也可能很大，位置和形状各不相同。这就是为什么看颜色、质地和大小更好的原因。这就是为什么有CNN专题的地区(R-CNN)是一个很好的组合。我们得到的不是几十万个箱子，而是大约2000个人口稠密的箱子。然而，这个算法非常慢，每张图像需要40-50秒。继任者Fast R-CNN和更快的R-CNN加快了这种缓慢的处理速度。在这篇博客中，我将只关注后者。R-CNN Fast R-CNN Faster R-CNN

更快的R-CNN由两个模块组成，第一个模块是区域提案网络(RPN)，第二个模块是使用ROI池，然后对包围盒进行分类和回归。基于要素地图的RPN输出

矩形建议及其客观性得分(不是看特定的对象类，而是看存在对象的概率)。它是一种通过最后一卷积层的输出使用滑动窗口的神经网络。每个窗口都有几个边框(最初为9个)，其比例和纵横比各不相同。因此，例如，对于典型的卷积特征图，可能有超过10000个边界框建议，然后对其进行分类和回归。

单级目标检测

两阶段检测通常更准确和精确，但它缺乏用于真正实时场景的速度。最著名的一阶段目标检测算法是YOLO算法，它简单明了，在基准数据集上取得了很高的分数。它是一个单一的神经网络，它使用整个图像的特征来预测每个边界框。这就是为什么它适合实时运行的原因。但是，它有一些限制，例如，检测较小的对象或彼此靠近的对象。已经开发和改进了YOLO算法(在撰写本文时，有5个版本的YOLO)。但我将重点介绍Sun等人在2021年引用的一个模型，即RetinaNet。YOLO Sun et al., 2021 RetinaNet

RetinaNet的主干是功能金字塔网络(FPN)，它帮助检测不同尺度的物体。它建在ResNet的顶部。在图像棱锥体中的每个图像处，都有几个具有不同纵横比的锚点(最初为9个)。这些子图像被馈送到分类子网和回归子网。对于所有金字塔层次，分类卷积神经网络子网和盒子网具有相同的参数。RetinanNet的主要归因是一种新的称为焦点丢失的丢失。它侧重于减轻前景和背景对象之间的类不平衡的影响。

稀疏R-CNN有什么不同？

稀疏R-CNN是一种两阶段目标检测算法。它拒绝了密集候选区域的想法。作者指出，即使考虑到更密集的场景(例如人群)，这样的建议也大多是多余的。图像中的潜在对象过多会使预测器变得比需要的速度慢。稀疏R-CNN只使用少量固定数量的潜在方框(在COCO数据集中，他们只需要100个初始方框)。该方法在使用稀疏框和稀疏特征的情况下表现突出，这两种稀疏特征都可以通过模型训练来学习。COCO

它怎麽工作?

这些框最初是随机生成的。然后，通过反向传播，盒子的放置被优化，所以如果某些类通常位于右上角，则会在那里放置几个盒子。作者建议，可以将其解释为查看潜在物体位置的统计数据。例如，如果一个类别是地毯，那么一些盒子会更宽，并放置在图像的底部。

另一项创新是可学习的提案功能，它与许多方框相同。期望特征不仅编码定位，而且编码姿势、纹理、形状等。这是在相互交互的ROI特征和建议特征的帮助下完成的(通过这种交互，意义较小和有偏见的特征将被过滤掉)。对于每个边界框建议，我们现在都有一个特定的编码，希望这将使未来的预测过程变得更容易。它是在所谓的动态实例交互头中完成的。

然后，每个特征和每个框被馈送到以特征为条件的动态实例交互头中，然后执行分类和边界框回归，如下图所示。

它有多好吃？

在MS Coco基准测试中，它更快(由更高的每秒帧数(FPS)表示)，并且对于较小的对象(由小对象的平均精度(AP)表示)明显更好。

事实证明，它也比它的前身更容易训练。这意味着用更少的计算时间，因此我们可以得到更好的结果。

摘要

目标检测领域已经走了很长一段路。通过创新，它以更少的计算能力实现了更好的性能。这样的系统通过pytorch或TensorFlow等库也比较容易实现。新的最先进的物体探测器的代码可以在这里找到。如果你想阅读更多关于物体检测领域的发展，我建议你阅读一篇关于物体检测的调查。如果你想知道更多关于稀疏R-CNN的细节，这里有一篇很棒的文章。here survey on object detection excellent article here

原创文章，作者：fendouai，如若转载，请注明出处：https://panchuang.net/2021/08/03/%e7%a8%80%e7%96%8fr-cnn%e2%80%8a-%e2%80%8a%e5%85%b3%e9%94%ae%e6%80%9d%e6%83%b3%e5%92%8c%e7%9b%b4%e8%a7%89%e4%b9%8b%e8%b7%af/

稀疏R-CNN - 关键思想和直觉之路

两阶段目标检测

单级目标检测

稀疏R-CNN有什么不同？

它怎麽工作?

它有多好吃？

摘要

联系我们

400-800-8888

稀疏R-CNN - 关键思想和直觉之路

两阶段目标检测

单级目标检测

稀疏R-CNN有什么不同？

它怎麽工作?

它有多好吃？

摘要

相关推荐

请登录

联系我们

400-800-8888