深度學習-物件偵測YOLOv1、YOLOv2和YOLOv3 cfg 檔解讀(二)

Tommy Huang
Oct 23, 2018

--

此篇主要是針對YOLO CNN結構的參數([convolutional]、[maxpool]、[shortcut]、[route]、[reorg]、[upsample])進行說明,其他參數設定說明請參考:

深度學習-物件偵測YOLOv1、YOLOv2和YOLOv3 cfg 檔解讀(一)

深度學習-物件偵測YOLO cfg檔解讀 (三) — 2021年

Darknet的cfg結構跟其他模型不太一樣,像在CAFFE的protxt檔是有bottom和top的設計,網路結構是根據你設定的bottom和top來決定層跟層之間的關係。

在darknet的cfg是一個top-down的設計,也就是你看到第一個[net]的開始往下做[xxx]出現的功能。例如:

[net]
width=416
height=416
channels=3
[convolutional]
batch_normalize=1
filters=64
size=3
stride=2
pad=1
activation=leaky
[maxpool]
size=2
stride=2

這代表你輸入影像的寬、高和維度數,之後看到的[convolutional]就開始到下一層,上圖的寫法等於

所以你需要多少卷積層就繼續層層疊下去。

Note:卷積參數、是否做batch normalization和對應的activation function等都在[convolutional]內填寫。

那如果要用特殊結構哩,這時候就需要其他的物件([shortcut]、[route]、[reorg] 、[upsample])進行,這四個功能又可分為兩類,第一類改變模型路徑([shortcut]、[route])第二類改變feature map大小([reorg] 、[upsample])

改變模型路徑([route]、[shortcut])

[route]

[route]這個函式有兩種寫法,分別是layer帶入1個數字和2個數字。

[route] layer帶入一個數字

[route]
layers = -4

這個做法是要將這層之後要做的事情,往前接到前4層的輸出結果來做(-1是前一層的輸出結果),這個目的是為了而外做一分支出來,下圖解應該可以讓人清楚了解實際做法。

[route] layer帶入2個數字

[route]
layers=-1,-4
[route]
layers = -1, 8

這個做法其實就是要做多個feature map進行串聯(Concatenate)這個動作,這邊有兩個寫法
第一個是兩個都是負號,例如 layers=-1,-4,就是-1層的結果跟-4層的結果串聯。
第一個是一正一負,例如 layers=-1, 8,就是-1層的結果跟第8層的結果串聯。
圖解如下,應該可以讓人清楚了解實際做法。

Note: YOLO層數的編號是從[net]後的第一個Conv開始計算,從0開始編號,在這個issue problem內有對[route]做很好的解釋。

圖片來源: https://github.com/AlexeyAB/darknet/issues/487#issuecomment-374902735

[shortcut]

[shortcut]這個功能是用來實現residual的shortcut用的,在YOLOv3作者為了讓feature exactor能更深(取更廣的語意),所以用residual NN的方式讓原本的darknet-19(19層)拓展到darknet-53(53層),為什麼YOLOv3是53層,是作者自行設定的文章沒有特殊說明(但有點自嘲的口吻在裡面→「It has 53 convolutional layers so we call it…. wait for it….. Darknet-53」)。

改變feature map大小([reorg] 、[upsample])

[reorg]

[reorg]這步驟是YOLOv2先用到的功能,全名是reorganization。作法跟名稱很類似就是重組。目的是希望能將圖的大小在減少1/2,但又不希望像maxpool的作法會丟掉訊息,因此利用相對位置的資訊,將1張圖拆成4小張,這樣大圖的訊息就能完全保留下來。因此如果feature map大小是100*100*126 (長*寬*通道數)經由[reorg],feature map將會變成 50*50*(126*4)= 50*50*504。

reorg

[upsample]

[upsample] 這步驟是YOLOv3用到的功能。
作法是希望一張小圖可以放大回去(在segmentation領域很常用),但在物件偵測領域因為feature extractor如果在縮小比例比較小(比如1/8)的偵測,因為前面的卷積層不夠深可能造成圖片語意解析得不夠深,在1/8這之前的網路還不能完全理解圖像,所以1/16或是1/32的feature map利用upsample的方法將feature map放大回1/8的大小。這個upsample做法通常就是用deconvolution的作法,如下圖(但deconv. 實際做法可以參考連結Convolution arithmetic),因為deconv的運作方式所以根本不是什麼de-conv,而是transpose conv.細節都在上述連結內,有空在寫一篇deconv.的文章。上面是廢話,因為YOLOv3 upsample我沒記錯是用nearest neighbor做upsample (如下圖,不是bilinear)。

upsample

內容不一定完全對,如果錯誤在麻煩幫我指出,感謝。

--

--

Tommy Huang
Tommy Huang

Written by Tommy Huang

怕老了忘記這些吃飯的知識,開始寫文章記錄機器/深度學習相關內容。Medium現在有打賞功能(每篇文章最後面都有連結),如果覺得寫的文章不錯,也可以Donate給個Tipping吧。黃志勝 Chih-Sheng Huang (Tommy), mail: chih.sheng.huang821@gmail.com