YOLO v2-更好、更快、更强大
在我的对象检测解释系列之前,我讨论并介绍了YOLOv1架构。对于YOLOv2,我总结了作者添加的所有修改要点。作者介绍了很多修改,但我希望您对YOLO v1非常熟悉,因为它将帮助您更快、更好、更强大地理解YOLO v2。
原文:YOLO9000:更好、更快、更强:https://arxiv.org/pdf/1612.08242v1.pdfhttps://arxiv.org/pdf/1612.08242v1.pdf
上一次:
RCNNRCNN
快速RCNNFast RCNN
FPNFPN
更快的RCNNFaster RCNN
固态硬盘SSD
YOLO v1YOLO v1
更好的
作者指出,与Fast-RCNN相比,YOLO v1犯了更多的定位错误,而且召回率也相对较低。因此,针对上述问题,他们对撞击进行了如下修改:
1.批量归一化(BN)
在YOLOv1中的每一卷积层之后都引入了BN层,从而使MAP提高了约2%。
2.高分辨率分类器
YOLO v1以224×224的图像分辨率训练分类器,并将其提高到448以进行检测。然而,YOLO v2在开始训练网络进行检测之前,首先在ImageNet上将其分类器直接微调为448×448分辨率10个历元。这导致MAP提高了4%。
3.带锚箱的卷积
作者从YOLOv1中删除了完全连接的层(您可以参考我以前关于YOLOv1的文章),并使用锚框来预测边界框。此外,他们删除了一个池层,并将输入分辨率从448×448更改为416个输入图像。这样做是因为他们在我们的要素地图中需要奇数个位置,所以只有一个中心单元。结果,他们在MAP方面的表现略有下降,但在召回率方面有了很好的改善,大约为7%。
4.维度集群
与YOLO配合使用时,锚箱有两个问题。首先,我们需要为网络选择好的先例,即锚盒,这样网络就更容易学习。因此,作者在训练集包围盒上采用K-均值聚类。
它是这样做的:
a)他们选择如下距离函数:D(方框,质心)=1−IOU(方框,质心)。
b)他们用不同的k值运行K-Means,发现k=5在模型复杂性和高召回率之间提供了一个很好的折衷。
5.直接位置预测
遇到的第二个问题是模型不稳定。因此,在过去,区域建议网络t_x和t_y,而中心坐标(x,y)计算如下:
然而,这个公式是不受约束的,因此它造成了不稳定。因此,作者使用以下公式:
其中网络预测t_x、t_y、t_w、t_h和t_o(客观性)。同时,(c_x,c_y)从图像的左上角偏移,p_w和p_h是先前边界框的宽度和高度。正如你所看到的,地面真相被限定在[0,1]的范围内(S型激活)。
由于维数簇结合了对包围盒中心位置的直接预测,作者获得了大约5%的改进。
6.多规模培训
网络不固定输入图像大小,而是从以下32的倍数中随机选择不同的输入分辨率,每隔10个历元:{320352kb,…,608}。这一制度鼓励网络在各种输入维度下表现良好。此外,它还提供了速度和准确性之间的简单折衷。
更快
1.暗网-19
作者提出了一种新的主干,Darknet-19,它有19个卷积层和5个最大合并层。处理一幅图像需要55.8亿次运算,但在ImageNet上,TOP-1准确率达到72.9%,TOP-5准确率达到91.2%。
2.分类训练
作者使用了标准的扩充。首先,他们以224×224的输入分辨率训练他们提出的主干,并在更大的尺寸上进行微调,448,持续10个历元。更多详情请参考原文。
更强大
有多个数据集用于分类和检测。它们能结合在一起吗?请注意,作者提出YOLO9000,而不是YOLOv2,只是出于这个原因。他们把两个数据集结合起来,得到了9000多个班级,所以这一部分是关于YOLO9000是如何训练的。
1.合并
- Microsoft Coco包含10万张图片,有80个类别、检测标签,类别比较通用,例如“狗”或“船”。
- ImageNet有1300万张图片,有22000个类别,分类标签更具体,比如“诺福克梗”、“约克郡梗”或“贝德灵顿梗”。
然而,像“狗”和“诺福克梗”这样的职业是相互排斥的。
要进行组合,请使用WordTree:
如上所述,作者使用WordTree构建了视觉概念的分层树。因此,“诺福克梗”也被贴上“狗”和“哺乳动物”的标签。总共有9418个班。
2.联合分类检测
- 作者使用3个先验,而不是5个,来限制输出大小。
- 对于检测图像,损失像正常情况一样反向传播。
- 对于分类图像,只有分类损失在标签的相应级别或以上被反向传播。
3.结果
- 实现了19.7%的MAP。
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/10/04/%e7%9b%ae%e6%a0%87%e6%a3%80%e6%b5%8b%e8%af%b4%e6%98%8e%ef%bc%9ayolo-v2%e3%80%82/