設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英特爾用 ViT 做密集預測效果超越卷積:性能提高 28%,在線可玩

量子位 2021/10/4 14:28:26 責編:問舟

用全卷積網(wǎng)絡做密集預測 (dense prediction),優(yōu)點很多。但現(xiàn)在,你可以試試 Vision Transformer 了 ——

英特爾最近用它搞了一個密集預測模型,結(jié)果是相比全卷積,該模型在單目深度估計應用任務上,性能提高了 28%。

其中,它的結(jié)果更具細粒度和全局一致性。

在語義分割任務上,該模型更是在 ADE20K 數(shù)據(jù)集上以 49.02% 的 mIoU 創(chuàng)造了新的 SOTA。

這次,Transformer 又在 CV 界秀了一波操作。

沿用編碼-解碼結(jié)構(gòu)

此模型名叫 DPT,也就是 dense prediction transformer 的簡稱。

總的來說,DPT 沿用了在卷積網(wǎng)絡中常用的編碼器-解碼器結(jié)構(gòu),主要是在編碼器的基礎計算構(gòu)建塊用了 transformer。

它通過利用 ViT 為主干,將 ViT 提供的詞包(bag-of-words)重新組合成不同分辨率的圖像特征表示,然后使用卷積解碼器將該表示逐步組合到最終的密集預測結(jié)果。

模型架構(gòu)圖如下:

具體來說就是先將輸入圖片轉(zhuǎn)換為 tokens(上圖橙色塊部分),有兩種方法:

(1)通過展開圖像表征的線性投影提取非重疊的圖像塊(由此產(chǎn)生的模型為 DPT-Base 與 DPT-Large);

(2)或者直接通過 ResNet-50 的特征提取器來搞定(由此產(chǎn)生的模型為 DPT-Hybrid)。

然后在得到的 token 中添加位置 embedding,以及與圖像塊獨立的讀出 token(上圖紅色塊部分)。

接著將這些 token 通過 transformer 進行處理。

再接著將每個階段通過 transformer 得到的 token 重新組合成多種分辨率的圖像表示(綠色部分)。注意,此時還只是類圖像(image-like)。

下圖為重組過程,token 被組裝成具有輸入圖像空間分辨率 1/s 的特征圖。

最后,通過融合模塊(紫色)將這些圖像表示逐步“拼接”并經(jīng)過上采樣,生成我們最終想要的密集預測結(jié)果。

ps.該模塊使用殘差卷積單元組合特征,對特征圖進行上采樣。

以上就是 DPT 的大致生成過程,與全卷積網(wǎng)絡不同,ViT 主干在初始圖像 embedding 計算完成后放棄了下采樣,并在全部處理階段保持恒定維數(shù)的圖像表示。

此外,它在每階段都有一個全局感受野。

正是這兩點不同對密集預測任務尤其有利,讓 DPT 模型的結(jié)果更具細粒度和全局一致性。

用兩種任務來檢驗效果,具體效果如何?

研究人員將 DPT 應用于兩種密集預測任務。

由于 transformer 只有在大訓練集上才能展現(xiàn)其全部潛能,因此單目深度估計評估是測試 DPT 能力的理想任務。

他們將 DPT 與該任務上的 SOTA 模型進行對比,采用的數(shù)據(jù)集包含約 140 萬張圖像,是迄今為止最大的單目深度估計訓練集。

結(jié)果是,兩種 DPT 變體的性能均顯著優(yōu)于最新模型(以上指標越低越好)。

其中,與 SOTA 架構(gòu) MiDaS 相比,DPT-Hybrid 的平均相對改善率超過 23%,DPT-Large 的平均相對改善率則超過 28%。

為了確保該成績不僅是由于擴大了訓練集,研究人員也在更大的數(shù)據(jù)集上重新訓練了 MiDaS,結(jié)果仍然是 DPT 勝出。

通過視覺比較圖還可以看出,DPT 可以更好地重建細節(jié),可以在對卷積結(jié)構(gòu)具有挑戰(zhàn)的區(qū)域(比如較大的均勻區(qū)域)中提高全局一致性。

另外,通過微調(diào),研究人員發(fā)現(xiàn) DPT 也可以有效地應用于較小的數(shù)據(jù)集。

在具有競爭力的語義分割任務上:研究人員在 ADE20K 數(shù)據(jù)集上對 DPT 進行了 240 個 epoch 的訓練。

結(jié)果發(fā)現(xiàn),DPT-Hybrid 優(yōu)于現(xiàn)有的所有全卷積結(jié)構(gòu),以 49.02 的 mIoU 達到了 SOTA(其更清晰、更細粒度的邊界效果如開頭所展示)。

而 DPT-Large 的性能稍差,研究人員分析可能是因為與之前的實驗相比,采用的數(shù)據(jù)集要小得多。

同時,他們在小數(shù)據(jù)集(Pascal)上對表現(xiàn)優(yōu)異的 DPT-Hybrid 微調(diào)了 50 個 epoch 后發(fā)現(xiàn),DPT 的性能仍然強大。

最后,“百聞不如一見”,如果你想體驗 DPT 的真實效果,可以到 Huggingface 官網(wǎng)。

論文地址:

https://arxiv.org/abs/2103.13413

模型地址:

https://github.com/intel-isl/dpt

Hugging Face 體驗地址:

https://huggingface.co/spaces/akhaliq/DPT-Large

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:英特爾,預測模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知