首頁(yè) > 科學(xué)探索>科技前沿

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

量子位 2023/4/18 13:41:03 責(zé)編：夢(mèng)澤

評(píng)論：

無(wú)需文字標(biāo)簽，完全自監(jiān)督的 Meta 視覺(jué)大模型來(lái)了！

小扎親自官宣，發(fā)布即收獲大量關(guān)注度 ——

在語(yǔ)義分割、實(shí)例分割、深度估計(jì)和圖像檢索等任務(wù)中，這個(gè)名叫 DINOv2 的視覺(jué)大模型均取得了非常不錯(cuò)的效果。

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

甚至有超過(guò)當(dāng)前最好的開(kāi)源視覺(jué)模型 OpenCLIP 之勢(shì)。

雖然此前 Meta 就發(fā)布過(guò)自監(jiān)督學(xué)習(xí)視覺(jué)大模型 DINO，不過(guò)這次 AI 識(shí)別圖像特征的能力顯然更進(jìn)一步，準(zhǔn)確分割出了視頻中的主體：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

可別以為 DINOv2 通過(guò)自監(jiān)督學(xué)會(huì)的只有圖片分割。事實(shí)上，它已經(jīng)能根據(jù)不同類(lèi)別、不同場(chǎng)景下的照片，準(zhǔn)確識(shí)別出同種物體（狗）的頭部、身體和四肢長(zhǎng)在哪：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

換而言之，DINOv2 自己學(xué)會(huì)了找圖像特征。

目前 Meta 官方不僅已經(jīng)放出了開(kāi)源代碼，而且還給了網(wǎng)頁(yè)版 Demo 試玩。有網(wǎng)友內(nèi)涵：

什么叫開(kāi)源，LLaMA，SAM，DINOv2 這才叫開(kāi)源！

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

一起來(lái)看看，DINOv2 的效果究竟如何。

準(zhǔn)確識(shí)別不同畫(huà)風(fēng)的同種物體

事實(shí)上，DINOv2 是基于上一代 DINOv1 打造的視覺(jué)大模型。

這個(gè)模型參數(shù)量是 10 億級(jí)，也仍然是視覺(jué) Transformer 架構(gòu)（ViT），但與 DINO 不太一樣的是，這次 DINOv2 在數(shù)據(jù)集上經(jīng)過(guò)了精心挑選。

具體來(lái)說(shuō)，DINOv2 構(gòu)建了一個(gè)數(shù)據(jù)篩選 pipeline，將內(nèi)容相似的圖片精心篩選出來(lái)，同時(shí)排除掉相同的圖片：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

最終呈現(xiàn)給 DINOv2 的訓(xùn)練數(shù)據(jù)圖片雖然沒(méi)有文字標(biāo)簽，但這些圖片的特征確實(shí)是相似的。

采用這類(lèi)數(shù)據(jù)訓(xùn)練出來(lái)的視覺(jué)模型，效果如何？

這是 DINOv2 在 8 個(gè)視覺(jué)任務(wù)上的表現(xiàn)，包括語(yǔ)義分割、分類(lèi)、深度估計(jì)等，其中橙色是自監(jiān)督方法的效果，深粉色是弱監(jiān)督方法的效果。

可以看見(jiàn)，經(jīng)過(guò)自監(jiān)督學(xué)習(xí)的視覺(jué)模型，表現(xiàn)上已經(jīng)與經(jīng)過(guò)弱監(jiān)督學(xué)習(xí)的模型性能相當(dāng)。

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

實(shí)際效果也不錯(cuò)，即便在一系列照片中，相同物體的畫(huà)風(fēng)并不相似，DINOv2 也能準(zhǔn)確識(shí)別它們的特征，并分到相似的列表中。

如（a）組中都具有翅膀的鳥(niǎo)和飛機(jī)、（b）組中的大象和大象雕塑、（c）組中的汽車(chē)和汽車(chē)玩具模型、（d）組中的馬和涂鴉版馬：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

而且從 PCA（主成分分析）圖像效果來(lái)看，DINOv2 不僅能準(zhǔn)確分類(lèi)，還能用不同顏色標(biāo)出它們“相同”的部分，例如象鼻都是綠色、車(chē)輪都是紅色、馬的尾巴是黃色等。

換而言之，DINOv2 能理解這些圖像中的相似之處，就像人會(huì)形容飛機(jī)“看起來(lái)像一只鳥(niǎo)”一樣。

目前 DINOv2 已經(jīng)放出 Demo，我們也試了試它的實(shí)際效果。

Demo 直接可玩

官網(wǎng)已經(jīng)開(kāi)放語(yǔ)義分割、圖像檢索和深度估計(jì)三大功能的試玩。

據(jù) Meta 介紹，這幾個(gè)任務(wù)中，DINOv2 在大多數(shù)基準(zhǔn)上超過(guò)了目前開(kāi)源視覺(jué)模型中表現(xiàn)最好的 OpenCLIP。

我們先來(lái)看看深度估計(jì)的效果。

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

值得一提的是，在效果更好的情況下，DINOv2 運(yùn)行的速度也比 iBOT 更快，相同硬件下只需三分之一的內(nèi)存，運(yùn)行速度就能比 DINOv2 快上 2 倍多。

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

這是 Meta 論文中與 OpenCLIP 在實(shí)際例子上的比較效果：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

我們用這張猛男版新寶島試一下，看起來(lái)還不錯(cuò)，即使是高糊圖片也能比較好地估計(jì)出深度：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

接下來(lái)是語(yǔ)義分割的效果，這里也先給出 Meta 論文中的數(shù)據(jù)對(duì)比情況：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

這里也給出 OpenCLIP 和 DINOv2 的對(duì)比，中間的圖片是 OpenCLIP 的效果，右邊是 DINOv2 分割的效果：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

我們也用一張辦公室的圖片試了一下，看起來(lái) DINOv2 還是能比較準(zhǔn)確地分割人體、物體的，但在細(xì)節(jié)上會(huì)有一些噪點(diǎn)：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

最后是圖片檢索。

官網(wǎng)上給出的圖片效果還是挺不錯(cuò)的，輸入鐵塔照片，可以生成不少含鐵塔的相似藝術(shù)圖片：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

這里我們也試了試，輸入一張華強(qiáng)買(mǎi)瓜，給出來(lái)的藝術(shù)圖片大多數(shù)與西瓜有關(guān)：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

那么，這樣的自監(jiān)督視覺(jué)大模型可以用在哪里？

從 Meta 給出的視頻來(lái)看，目前有一些比較環(huán)保的用途，例如用于估計(jì)全球各地的樹(shù)木高度：

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

除此之外，如同扎克伯格所說(shuō)，DINOv2 還能被用于改善醫(yī)學(xué)成像、糧食作物生長(zhǎng)等。當(dāng)然這里小扎還進(jìn)一步強(qiáng)調(diào)：

可以被用于制作更具沉浸感的元宇宙。

嗯，看來(lái) Meta 的元宇宙路線還將繼續(xù)……

試玩 Demo 地址：

https://dinov2.metademolab.com/demos

項(xiàng)目地址：

https://github.com/facebookresearch/dinov2

參考鏈接：

https://www.facebook.com/zuck/posts/pfbid02f3chCYQphfYnzRaDXeJxsT5EmyhbrFsjqLaU31KuTG63Ca4yMXFcDXQcukYPbWUMl

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源

準(zhǔn)確識(shí)別不同畫(huà)風(fēng)的同種物體

Demo 直接可玩

相關(guān)文章

小扎親自官宣 Meta 視覺(jué)大模型，自監(jiān)督學(xué)習(xí)無(wú)需微調(diào)，多任務(wù)效果超 OpenCLIP，開(kāi)源