今天我们要讨论的是四家机构的研究人员提出的一种方法，其中一家是ByteDance AI Lab(以他们的TikTok App而闻名)。他们给了我们一种称为稀疏R-CNN的新方法(不要与稀疏R-CNN混淆，稀疏R-CNN在3D计算机视觉任务中使用稀疏卷积，以便)，该方法在目标检测方面实现了接近最先进的性能，并使用完全稀疏和可学习的边界框生成method that

建议的模型功能

顾名思义，这个模型是端到端的。这个建筑很优雅。它由从图像中提取特征的基于FPN的主干、上述可学习建议盒和建议特征和动态实例交互头部组成，这是本文神经网络结构的主要贡献。

动态实例交互头

在给定N个提案框的情况下，稀疏R-CNN首先利用RoIAlign操作从骨干网中提取具有提案边界框定义的每个区域的特征。每个ROI特征被馈送到其自己的独占头部用于对象定位和分类，其中每个头部以特定的可学习建议特征为条件。

提案特征被用作卷积的权重，在上面的图像中，它们被称为“参数”。通过该生成的卷积处理ROI特征以获得最终特征。通过这种方式，具有最多前景信息的存储箱影响最终目标的定位和分类。在动态头部中嵌入自我注意模块，通过这种卷积来推理对象之间的关系和影响预测。

主要结果

作者提供了几个对照表，展示了一种新方法的性能。稀疏R-CNN与RetinaNet相比，在ResNet50和ResNet100的两个变体中速度更快的R-CNN和DETR。

这里我们可以看到，稀疏R-CNN在R50和R100上都优于RetinaNet和更快的R-CNN，但它的性能与基于DETR的架构非常相似。

根据作者的说法，DETR模型实际上是密集到稀疏模型，因为它利用稀疏的对象查询集，与全局(密集)图像特征进行交互。因此，与DETR相比，本文具有一定的新颖性。

在该图像上，您可以看到对COCO数据集进行模型推理的定性结果。在第一列中，将显示学习的建议书框，并对任何新图像进行预测。在接下来的专栏中，您可以看到最终的bbox，这些bbox是从提案中提炼出来的。它们在迭代学习过程中所处的不同阶段是不同的。

给我看密码！

总而言之，我想说的是，在2020年，我们看到了很多将变形金刚应用于图像的论文。变形金刚在自然语言处理领域已经证明了它们的价值，现在它们逐渐进入了图像处理领域。本文向我们展示了使用变压器可以制造出质量与目前两级检测器相当的快速单级检测器。

关于实现的所有细节，您可以在基于FIRE的DETR和Detectron2代码库的作者代码中找到：https://github.com/PeizeSun/SparseR-CNNhttps://github.com/PeizeSun/SparseR-CNN

参考文献

[1]更快的R-CNN：基于区域建议网络https://arxiv.org/abs/1506.01497的实时目标检测https://arxiv.org/abs/1506.01497

[2]YOLO算法和YOLO目标检测：https://appsilon.com/object-detection-yolo-algorithm/简介https://appsilon.com/object-detection-yolo-algorithm/

[3]稀疏R-CNN：基于可学习建议的端到端目标检测https://arxiv.org/abs/2011.12450https://arxiv.org/abs/2011.12450

原创文章，作者：fendouai，如若转载，请注明出处：https://panchuang.net/2021/08/02/%e7%a8%80%e7%96%8fr-cnn%ef%bc%9a%e4%b8%80%e7%a7%8d%e6%96%b0%e7%9a%84%e6%8e%a2%e6%b5%8b%e5%99%a8%e7%b1%bb%e5%9e%8b/

稀疏R-CNN：一种新的探测器类型

相关工作

稠密法

稠密到稀疏方法

稀疏法

建议的模型功能

动态实例交互头

主要结果

给我看密码！

参考文献

联系我们

400-800-8888

稀疏R-CNN：一种新的探测器类型

相关工作

稠密法

稠密到稀疏方法

稀疏法

建议的模型功能

动态实例交互头

主要结果

给我看密码！

参考文献

相关推荐

请登录

联系我们

400-800-8888