今天我们要讨论的是四家机构的研究人员提出的一种方法,其中一家是ByteDance AI Lab(以他们的TikTok App而闻名)。他们给了我们一种称为稀疏R-CNN的新方法(不要与稀疏R-CNN混淆,稀疏R-CNN在3D计算机视觉任务中使用稀疏卷积,以便),该方法在目标检测方面实现了接近最先进的性能,并使用完全稀疏和可学习的边界框生成method that
相关工作
让我们从现有检测方法的简要概述开始。
稠密法
其中一种应用广泛的管道是单级检测器,它可以单次预测密集覆盖空间位置、比例和纵横比的锚箱的标签和位置。例如SSD或YOLO。SSD YOLO
让我们考虑一下YOLO算法。最终,它的目标是预测图像上对象的类别和指定对象位置的边界框。可以使用四个描述符来描述每个边界框:
此外,我们还必须预测PC值,即边界框中存在对象的概率。
这是一种密集的方法,因为它不会在给定图像中搜索可能包含对象的感兴趣区域。取而代之的是,YOLO使用19×19网格将图像分割成单元格。但通常一级探测器可以产生W×H单元,每个像素一个。每个单元格负责预测k个边界框(在本例中,k被选择为5)。因此,对于一幅图像,我们得到了大量的W×H×k包围盒。
稠密到稀疏方法
有两个阶段的检测器,它搭载着使用RPN生成的密集提案,就像更快的R-CNN论文提出的那样。多年来,这些探测器一直主导着现代目标检测。Faster R-CNN
该算法利用RPN从密集的候选区域中获取稀疏的前景提案框集合,然后对每个提案的位置进行细化,并对其特定类别进行预测。
建议的获得方式与一级检测器相似,但它不是直接预测对象的类别,而是预测客观性概率。之后,第二阶段对按客观性和重叠分数边界框过滤的类进行预测。
稀疏法
本文作者将其新的稀疏R-CNN范式归类为现有目标检测器范式的扩展,包括从完全稠密到稠密到稀疏,再加上新的步骤,从而导致完全稀疏。
在回顾的论文中,避免使用RPN,代之以一小组建议书框(例如,每幅图像100个)。这些框是使用网络的可学习提案框部分和提案特征部分获得的。形式预测每个建议4个值(x,y,h,w),而后者预测每个BBox内容的长度为256的潜在表示向量。学习的建议框作为合理的统计量进行后续的细化,学习的建议特征用于引入注意机制。这种机制与DETR纸中使用的机制非常相似。这些操作在动态实例交互头中执行,我们将在下一节中介绍。DETR
建议的模型功能
顾名思义,这个模型是端到端的。这个建筑很优雅。它由从图像中提取特征的基于FPN的主干、上述可学习建议盒和建议特征和动态实例交互头部组成,这是本文神经网络结构的主要贡献。
动态实例交互头
在给定N个提案框的情况下,稀疏R-CNN首先利用RoIAlign操作从骨干网中提取具有提案边界框定义的每个区域的特征。每个ROI特征被馈送到其自己的独占头部用于对象定位和分类,其中每个头部以特定的可学习建议特征为条件。
提案特征被用作卷积的权重,在上面的图像中,它们被称为“参数”。通过该生成的卷积处理ROI特征以获得最终特征。通过这种方式,具有最多前景信息的存储箱影响最终目标的定位和分类。在动态头部中嵌入自我注意模块,通过这种卷积来推理对象之间的关系和影响预测。
主要结果
作者提供了几个对照表,展示了一种新方法的性能。稀疏R-CNN与RetinaNet相比,在ResNet50和ResNet100的两个变体中速度更快的R-CNN和DETR。
这里我们可以看到,稀疏R-CNN在R50和R100上都优于RetinaNet和更快的R-CNN,但它的性能与基于DETR的架构非常相似。
根据作者的说法,DETR模型实际上是密集到稀疏模型,因为它利用稀疏的对象查询集,与全局(密集)图像特征进行交互。因此,与DETR相比,本文具有一定的新颖性。
在该图像上,您可以看到对COCO数据集进行模型推理的定性结果。在第一列中,将显示学习的建议书框,并对任何新图像进行预测。在接下来的专栏中,您可以看到最终的bbox,这些bbox是从提案中提炼出来的。它们在迭代学习过程中所处的不同阶段是不同的。
给我看密码!
总而言之,我想说的是,在2020年,我们看到了很多将变形金刚应用于图像的论文。变形金刚在自然语言处理领域已经证明了它们的价值,现在它们逐渐进入了图像处理领域。本文向我们展示了使用变压器可以制造出质量与目前两级检测器相当的快速单级检测器。
关于实现的所有细节,您可以在基于FIRE的DETR和Detectron2代码库的作者代码中找到:https://github.com/PeizeSun/SparseR-CNNhttps://github.com/PeizeSun/SparseR-CNN
参考文献
[1]更快的R-CNN:基于区域建议网络https://arxiv.org/abs/1506.01497的实时目标检测https://arxiv.org/abs/1506.01497
[2]YOLO算法和YOLO目标检测:https://appsilon.com/object-detection-yolo-algorithm/简介https://appsilon.com/object-detection-yolo-algorithm/
[3]稀疏R-CNN:基于可学习建议的端到端目标检测https://arxiv.org/abs/2011.12450https://arxiv.org/abs/2011.12450
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/08/02/%e7%a8%80%e7%96%8fr-cnn%ef%bc%9a%e4%b8%80%e7%a7%8d%e6%96%b0%e7%9a%84%e6%8e%a2%e6%b5%8b%e5%99%a8%e7%b1%bb%e5%9e%8b/