本文简要回顾了北航的“学习空间融合单次目标检测”(ASFF)。在本文中:
- 提出了自适应空间特征融合方法,通过学习空间过滤冲突信息来抑制冲突信息的不一致性,从而提高了特征的尺度不变性,并引入了几乎自由的推理开销。
这是2019年arxiv的一篇论文。(曾锡豪@Medium)Sik-Ho Tsang
大纲
1.强基线
- 在YOLOv3中,有两个主要组件:一个有效的主干(暗网-53)和一个三层的特征金字塔网络。
- 在本文中,使用免费赠品袋(BoF)(1-3)[43]在YOLOv3上建立更强的基线。
- 在训练过程中使用[43]中的一包技巧(1-3),例如
- (然而,在这篇文章中,我想重点介绍ASFF,这也是本文的主要贡献。)
2.自适应空间特征融合(ASFF)
- 在构建了更强的基线之后,在此基础上提出了ASFF。
- 它由两个步骤组成:相同的重缩放和自适应融合。
- 由于YOLOv3中三个层次的特征具有不同的分辨率和不同的通道数,因此对每个尺度的上采样和下采样策略进行了相应的修改。
- 对于上采样,使用1×1卷积层将特征的通道数压缩到水平l,然后通过插值分别对分辨率进行提升。
- 对于1/2比的下采样,采用步长为2的3×3卷积层同时调整通道数和分辨率。
- 对于比例比为1/4的情况,在2步卷积之前添加最大2步的池层。
2.2.自适应融合
- 设xn→l_ij表示从n级调整到l级的特征图上(i,j)位置的特征向量,对应的l级特征融合如下:
- 哪里
- 并且它们指的是由网络自适应地学习的三个不同级别到级别l的特征地图的空间重要性权重:
- 使用分别以λl_αij、λl_βij和λl_γij作为控制参数的Softmax来计算它们。
- 1×1卷积层分别用于计算权标量图λl_αij、λl_βij和λl_γij,使得它们可以通过标准反向传播来学习。
- (还有一些段落可以说明为什么这些很重要。如果有兴趣,请随时阅读这份报纸。)
3.实验结果
3.1.可视化
- 对于第一行的图像,根据融合后的1级特征图对3只斑马进行预测,表明其中心区域以1级的原始特征为主。
- 并且级别2和级别3中的那些区域内的调整大小的要素被过滤掉(最右侧)。此滤波确保将这三个级别为2和3的斑马的特征视为背景。
3.2.ASFF与其他融合操作的比较
- 简单的级联或求和(加法)都会大幅降低APL的性能。
- 特征金字塔不同层次之间的不一致性给训练过程带来了负面影响,使得金字塔特征表达的潜力没有得到充分发挥。
3.3。SOTA比较
- 最终的模型是带有ASFF*的YOLOv3,这是一个增强的ASFF版本,它集成了其他轻量级模块(即DropBlock[7]和RFB[23]),训练时间更长。
- YOLOv3保持了YOLOv3的高效率,其性能提升到与最先进的单次激发探测器(例如,FCOS[36]、Centernet[44]和NAS-FPN[8])相同的水平。
- 值得注意的是,YOLOv3可以在不同的输入分辨率下以相同的权重进行评估,并且降低了输入图像的分辨率以追求更快的检测器,ASFF对性能的改善更为显著。
参考文献
[2019 arxiv][ASFF]学习空间融合用于单镜头目标检测Learning Spatial Fusion for Single-Shot Object Detection
目标检测
2014:[OverFeat][R-CNN]2015:[FAST R-CNN][FASTER R-CNN][MR-CNN&S-CNN][DeepID-NET]2016:[OHEM][Craft][R-FCN][ION][MultiPathNet][Hikvision][GBD-NET/GBD-v1&GBD-v2][SSD][YOLOv1]2017:[NOC][G-RMI][TDM][DSSD[FPN][RetinaNet][DCN/DCNv1][Light-Head R-CNN][DSOD][CoupleNet]2018:[YOLOv3][Cascade R-CNN][MegDet][StairNet][RefineDet][CornerNet]2019年:[DCNv2][Reink ImageNet预培训][GRF-DSOD&GRF-SSD][Centernet][GridOverFeat R-CNN Fast R-CNN Faster R-CNN MR-CNN & S-CNN DeepID-Net OHEM CRAFT R-FCN ION MultiPathNet Hikvision GBD-Net / GBD-v1 & GBD-v2 SSD YOLOv1 NoC G-RMI TDM DSSD YOLOv2 / YOLO9000 FPN RetinaNet DCN / DCNv1 Light-Head R-CNN DSOD CoupleNet YOLOv3 Cascade R-CNN MegDet StairNet RefineDet CornerNet DCNv2 Rethinking ImageNet Pre-training GRF-DSOD & GRF-SSD CenterNet Grid R-CNN NAS-FPN ASFF EfficientDet
我以前的其他论文阅读
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/08/02/%e8%af%84%e2%80%8a-%e2%80%8aasff%ef%bc%9a%e5%ad%a6%e4%b9%a0%e7%a9%ba%e9%97%b4%e8%9e%8d%e5%90%88%e7%94%a8%e4%ba%8e%e5%8d%95%e9%95%9c%e5%a4%b4%e7%9b%ae%e6%a0%87%e6%a3%80%e6%b5%8b-2/