arxiv:https://arxiv.org/abs/2008.13367https://arxiv.org/abs/2008.13367
要点
- 另一种基于无锚点的目标检测网络
- 介绍新的损失,变焦损失,这是一个分叉版本的焦点损失。从焦点损失到进一步补偿正/负不平衡作了一些改变。
- 这项工作不是单独预测分类和IOU得分,而是预测代表这两者的组合的单个标量。作者说,这种方法在进行NMS后处理时显示出更好的效果。
- 星形长方体特征表示。
简介
这项工作在FCOS+ATS的基础上应用了新的思想。强烈推荐在两种网络/方法上阅读。特别是,ATSS是本文采用的正/负抽样方法,有助于更好地理解本文。
FCOS也是一个无锚点的对象检测网络,其中每个特征地图中的每个点都预测对象类别和“中心度”。这种分别预测对象类和表示BBox本地化的标量(在本例中为“中心度”)的方法看起来很好,也很直观,但在进行NMS后处理时执行得不是很好。采用类似方法的其他网络通常使用分类标量作为置信度,或者将该置信度与“本地化”标量(例如“中心度”)相乘,以将其用作排序标准。然而,根据作者的说法,这个值在NMS中表现不是很好。
欠条感知分类评分(IACS)
因此,作者提出预测单个标量,该标量已经是目标分类和定位度量的乘法值,并直接在NMS中使用该值进行排序。作者提出了欠条感知分类分数(IACS)。此方法将填充GT类对象的IOU值,而不是类的置信度值。IOU值将是预测的BBOX和GT BBOX之间的IOU值。在其他类的插槽中,GT值应设置为零。需要注意的一点是,GT类的GT值是动态的。
星形盒要素表达
对象类别和预测置信度的决策委托给IACS。那实际的包围盒坐标呢?针对这一问题,本文采用了“星形盒特征表示法”。
对于特征映射中的每个点,网络通过预测4个值来预测初始BBox:(l‘,t’,r‘,b’),每个值表示来自给定点的初始BBox的左值、右上值、下值。然后,对于每个点,收集左、右、上、下角和中点上的9个点,以及给定点本身。收集这9个点并对其应用可变形卷积。使用此新功能,预测BBox偏移量再次为4个值:(dl,dt,dr,db)。因为最终(l,t,r,b)值是通过(dl*l‘,dt*t’,dr*r‘,db*b’)获得的,所以更合适的名称应该是‘比例因子’。这一次要步骤在论文中被称为“包围盒精化”,作者说这有助于预测的BBox更接近实际情况。
在这一点上,我很好奇实际实现如何处理l、t、r、b值的裁剪,但本文中没有提到这一部分。我想我必须检查这些小细节的代码实现。
我想知道为什么这种方法叫“星形”,但我想我知道为什么。如果我们从中心点到边界上的其他8个点画一条线,它有点像一颗星星。
变焦损失
回到IACS。我们知道网络想要预测什么(IACS),但是如何结合“进化”版的焦散呢?
焦损通过将预测值乘以伽马,很好地处理了类别不平衡,公式如下所示。
本文仅针对负样本的损失计算借用了这一思路。对于正样本,它使用BCE损失,但有一个区别:它将BCE损失乘以GT值。这个修正版本的公式如下所示,我们称之为“变焦距损失”。
对负样本使用焦损是有意义的,因为提出的网络将不可避免地对每个特征地图中的每个点进行大量预测,这些预测最终甚至不会成为有效的对象bbox。本工作巧妙地对正样本不采用这种聚焦方法,而是采用BCE损失。
关于正样本损失的另一个聪明之处是,它不是香草BCE损失。地面真实值(=Q)乘以BCE损失。让我们看看这个小小的变化如何修正对我们有利的正样本损失。
对于普通的BCE损失,损失值的变化如下所示,其中图形由地面真实值(=Q)改变。
修改后的BCE损耗的图表如下所示。
在香草版本中,不同Q值的损耗图显示了在Q=0.5上旋转的对称行为。Q=1.0和Q=0.0的损失图是相同的,只是它只是水平翻转而已。
然而,对于修正的BCE损耗,Q=1.0和Q=0.0的损耗曲线图截然不同。对于q=0.0,图形只是平坦的。此曲线不会出现渐变贡献。对于Q=1.0,该图与香草BCE损耗中的图相同,并且此曲线将生成将优化为Q值的梯度。这样,我们可以看到,当Q值接近1.0时,损耗曲线是有效的,而当Q值接近0.0时,损耗曲线变得没有意义。由于我们希望提高更“确定”的阳性样品的损失值,因此修正的BCE损失比香草BCE损失更有利。
整个网络结构
本文提出的三个主要增强是
- 星形盒要素表达
- 变焦损失
- 欠条感知分类分数
并入所有这些的网络结构如下所示。
主干金字塔和要素金字塔是借鉴前人工作的基础上发展起来的,所有的新思想都被应用到各级要素地图所附的头部网络中。
本文将其称为VFNet
损失
全部损失是加权总和
- 变焦损失
- 初始预测的BBOX损失
- 精细化BBOX损失
这可以用这样的公式表示:
每个符号的意思都写在标题里。如果使用N_pos进行归一化,有一件事我不能完全理解,那就是正样本的数量(前景点)。我认为直觉上这是正确的选择,但就是无法从理论上解释为什么这是应该走的选择。
推理
本文使用的输入图像大小为1333×800。过滤输出框时,它会经历以下步骤
- 删除最大IACS<0.05的BBox
- 选择每个FPN级别的前1000个max_iacs值框
- 应用阈值为0.6的NMS
消融研究的启示
新思想的贡献
分析了三个分量(变焦损失、星形BBox表示、BBox细化)的贡献,结果如下所示。
这三个都会带来改善。
变焦距的损失比其他的要好。
本文还对变焦距损失(FL)和广义焦损(GFL)是否优于普通焦损(FL)和广义焦损(GFL)进行了实验。结果如下所示,我们可以看到变焦损失比其他的要好。
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/01/%e8%ae%ba%e6%96%87%e6%91%98%e8%a6%81%ef%bc%9avariafalnet%ef%bc%9a%e4%b8%80%e7%a7%8diou%e6%84%9f%e7%9f%a5%e7%9a%84%e5%af%86%e9%9b%86%e5%af%b9%e8%b1%a1%e6%a3%80%e6%b5%8b%e5%99%a8vfnet-2/