1. 磐创AI首页
  2. Medium

YOLOv3 - 您只需看一次(物体检测)


华盛顿大学在本章節中,回顧了的YOLOv3(你只看一次v3)。Yolo是一種非常著名的物件偵測器.我想每個人都應該知道.以下是作者的演示:

由於作者忙於推特和GAN,也幫助他人進行研究,YOLOv3對YOLOV2幾乎沒有任何改進.例如,一個更好的要素提取器、具有快捷方式连接的DarkNet-53、以及一個具有要素地图上采样和级联的更好的物件偵測器。並以2018年年arxiv科技報告的形式發佈,引文超過200篇。YOLOv2

大纲

1.包围盒预测

  • 它與YOLOv2相同.
  • 預測了Tx、ty、tw、Th.
  • 在訓練期間,使用误差平方损失总和(SSE损失)。
  • YOLOv3在检测之前使用Logistic回归為每一個包围盒預測物件的分數(置信度分数),即這塊位置是目標的可能性有多大,可以去掉不必要锚,可以減少計算量
  • 對每個Ground Truth只分配一個最好的Bound Box與其對應(地面真相和包围盒)。
  • 以借条值作為判定標準,區分目标和背景:

2.班级预测

  • Yolo在過去大多都使用SoftMax去計算這個Object可能的機率
  • 但是SoftMAX假設每個Bbox只有一個類,只能用於單標籤多分類

  • 於是YOLOv3將SoftMax改以二进制交叉熵的方式對Bbox上的多個標籤進行多分類預測

3.损失函数

  • YOLOv3將对象置信度和类预测部分的损失改用二进制交叉熵损失而不是使用均方误差去計算分類誤差。

  • 根據這個Bbox裡面是否存在這個物件,做二元分類預測
  • 二元的意思是指1.有這個類別2.沒有這個類別
  • 而他的bce總合便是針對所有可能出現的類別,各做一次預測

4.跨尺度预测

  • YOLO v3在3種不同的Scale上做預測,並從這些尺度中選取特徵,如FPN.

  • 將幾個卷積層加入到基本特征提取器DarkNet-53(將在下一節中提到)。
  • 最後一個Layer預測包围盒,Objectness和类预测。
  • 在Coco資料集上,每個Scale上有3個框.因此,输出张量為N×N×[3×(4+1+C)],即預測N*N网格单元、3边界框、4边界框偏移、1客观性、C类预测。
  • C=80

  • 13 x 13層負責檢測較大的物體、52 x 52層檢測較小的物體、26 x 26層檢測中等物體。這是對同一物體中不同層次的不同物體的比較分析.=>解析度越大檢測能力越強
  • 接下來,從前2层中選取要素地图,並按2×進行上采样。要素地图也取自網絡的早期部分,並使用串接將其與我們的上采样要素合併。這實際上是典型的编解码器架构,就像固态硬盘演變為DSSD一樣。
  • 這種方法允許我們從上采样特征中獲得更有意義的语义信息,上采样層與前一層特征地图相連接,有助於保留細粒度的資訊(细粒度信息),有助於偵測小物件。
  • 然後,再添加幾個卷积层來處理這個組合的要素图,並最終預測一個類似的張量,雖然現在的大小是原來的兩倍。
  • 這裡還使用k-Means聚类來尋找更好的边界框。最後,在Coco資料集上,使用了(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116×90),(156×198)和(373×326)。

5.特征提取器:DarkNet-53

  • YOLOv2採用DarkNet-19分類網絡進行特征提取。
  • 現在YOLOv3提出一個更深入的网络DarkNet-53替換了Darknet-19,共有53個卷積層
  • 使用DarkNet-53做底層特徵提取,將中低層和底層的特徵矩陣,通過卷積操作和矩陣拼接操作,產生3個尺度的輸出
  • YOLOv2和YOLOv3都使用批次标准化。
  • 如上所示,也使用快捷连接,將前一層的特徵用跳躍連接的方式傳遞到下一層,比起Resnet-152少了更多的浮點數運算。

  • 千级ImageNet TOP-1和TOP5錯誤率的量測如上所述。
  • 在泰坦X图形处理器上使用单片256×256影像測試。
  • 與Resnet-101相比,Darknet-53具有更好的效能(作者在本文中提到了這一點),並且速度快了1.5倍。
  • 與Resnet-152相比,Darknet-53具有類似的效能(作者在本文中提到了這一點),並且比Resnet-152快2倍。

6.结果

6.1.可可地图@0.5

  • 如上所示,與Retinanet相比,YOLOV3具有可比性MAP@0.5MAP@0.5MAP,YOLOV3具有可比性MAP@具有更快的推理時間
  • 例如,YOLOv3-608在51ms內獲得57.9%的MAP,而Retinannet-101800在198ms內僅獲得57.5%的MAP,速度快3.8MAP。

6.2.可可整体地图

  • 對於整體地图,YOLOv3效能顯著下降。
  • 然而,YOLOv3-608在51ms推斷時間內獲得33.0%的MAP,而Retinannet-101-50-500在73ms推斷時間內僅獲得32.5%的MAP。
  • YOLOv3與固态硬盘變體相當,速度快3倍。

6.3.详细信息

  • YOLOv3比固态硬盘好得多,效能與固态硬盘類似。
  • 研究發現、YOLOv3在AP_S上的效能相對較好,但在AP_M和AP_L上的效能相對較差。
  • YOLOv3CNNResnet,FPN,G-RMI比使用和时分复用的两级快速R-cnn變體具有更好的AP_S。

6.4.定性结果

参考文献

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/09/22/yolov3%e2%80%8a-%e2%80%8a%e6%82%a8%e5%8f%aa%e9%9c%80%e7%9c%8b%e4%b8%80%e6%ac%a1%e7%89%a9%e4%bd%93%e6%a3%80%e6%b5%8b/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息