設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

小扎親自官宣 Meta 視覺(jué)大模型,自監(jiān)督學(xué)習(xí)無(wú)需微調(diào),多任務(wù)效果超 OpenCLIP,開(kāi)源

量子位 2023/4/18 13:41:03 責(zé)編:夢(mèng)澤

無(wú)需文字標(biāo)簽,完全自監(jiān)督的 Meta 視覺(jué)大模型來(lái)了!

小扎親自官宣,發(fā)布即收獲大量關(guān)注度 ——

在語(yǔ)義分割、實(shí)例分割、深度估計(jì)和圖像檢索等任務(wù)中,這個(gè)名叫 DINOv2 的視覺(jué)大模型均取得了非常不錯(cuò)的效果。

甚至有超過(guò)當(dāng)前最好的開(kāi)源視覺(jué)模型 OpenCLIP 之勢(shì)。

雖然此前 Meta 就發(fā)布過(guò)自監(jiān)督學(xué)習(xí)視覺(jué)大模型 DINO,不過(guò)這次 AI 識(shí)別圖像特征的能力顯然更進(jìn)一步,準(zhǔn)確分割出了視頻中的主體:

可別以為 DINOv2 通過(guò)自監(jiān)督學(xué)會(huì)的只有圖片分割。事實(shí)上,它已經(jīng)能根據(jù)不同類(lèi)別、不同場(chǎng)景下的照片,準(zhǔn)確識(shí)別出同種物體(狗)的頭部、身體和四肢長(zhǎng)在哪:

換而言之,DINOv2 自己學(xué)會(huì)了找圖像特征。

目前 Meta 官方不僅已經(jīng)放出了開(kāi)源代碼,而且還給了網(wǎng)頁(yè)版 Demo 試玩。有網(wǎng)友內(nèi)涵:

什么叫開(kāi)源,LLaMA,SAM,DINOv2 這才叫開(kāi)源!

一起來(lái)看看,DINOv2 的效果究竟如何。

準(zhǔn)確識(shí)別不同畫(huà)風(fēng)的同種物體

事實(shí)上,DINOv2 是基于上一代 DINOv1 打造的視覺(jué)大模型。

這個(gè)模型參數(shù)量是 10 億級(jí),也仍然是視覺(jué) Transformer 架構(gòu)(ViT),但與 DINO 不太一樣的是,這次 DINOv2 在數(shù)據(jù)集上經(jīng)過(guò)了精心挑選。

具體來(lái)說(shuō),DINOv2 構(gòu)建了一個(gè)數(shù)據(jù)篩選 pipeline,將內(nèi)容相似的圖片精心篩選出來(lái),同時(shí)排除掉相同的圖片:

最終呈現(xiàn)給 DINOv2 的訓(xùn)練數(shù)據(jù)圖片雖然沒(méi)有文字標(biāo)簽,但這些圖片的特征確實(shí)是相似的。

采用這類(lèi)數(shù)據(jù)訓(xùn)練出來(lái)的視覺(jué)模型,效果如何?

這是 DINOv2 在 8 個(gè)視覺(jué)任務(wù)上的表現(xiàn),包括語(yǔ)義分割、分類(lèi)、深度估計(jì)等,其中橙色是自監(jiān)督方法的效果,深粉色是弱監(jiān)督方法的效果。

可以看見(jiàn),經(jīng)過(guò)自監(jiān)督學(xué)習(xí)的視覺(jué)模型,表現(xiàn)上已經(jīng)與經(jīng)過(guò)弱監(jiān)督學(xué)習(xí)的模型性能相當(dāng)。

實(shí)際效果也不錯(cuò),即便在一系列照片中,相同物體的畫(huà)風(fēng)并不相似,DINOv2 也能準(zhǔn)確識(shí)別它們的特征,并分到相似的列表中。

如(a)組中都具有翅膀的鳥(niǎo)和飛機(jī)、(b)組中的大象和大象雕塑、(c)組中的汽車(chē)和汽車(chē)玩具模型、(d)組中的馬和涂鴉版馬:

而且從 PCA(主成分分析)圖像效果來(lái)看,DINOv2 不僅能準(zhǔn)確分類(lèi),還能用不同顏色標(biāo)出它們“相同”的部分,例如象鼻都是綠色、車(chē)輪都是紅色、馬的尾巴是黃色等。

換而言之,DINOv2 能理解這些圖像中的相似之處,就像人會(huì)形容飛機(jī)“看起來(lái)像一只鳥(niǎo)”一樣。

目前 DINOv2 已經(jīng)放出 Demo,我們也試了試它的實(shí)際效果。

Demo 直接可玩

官網(wǎng)已經(jīng)開(kāi)放語(yǔ)義分割、圖像檢索和深度估計(jì)三大功能的試玩。

據(jù) Meta 介紹,這幾個(gè)任務(wù)中,DINOv2 在大多數(shù)基準(zhǔn)上超過(guò)了目前開(kāi)源視覺(jué)模型中表現(xiàn)最好的 OpenCLIP。

我們先來(lái)看看深度估計(jì)的效果。

值得一提的是,在效果更好的情況下,DINOv2 運(yùn)行的速度也比 iBOT 更快,相同硬件下只需三分之一的內(nèi)存,運(yùn)行速度就能比 DINOv2 快上 2 倍多。

這是 Meta 論文中與 OpenCLIP 在實(shí)際例子上的比較效果:

我們用這張猛男版新寶島試一下,看起來(lái)還不錯(cuò),即使是高糊圖片也能比較好地估計(jì)出深度:

接下來(lái)是語(yǔ)義分割的效果,這里也先給出 Meta 論文中的數(shù)據(jù)對(duì)比情況:

這里也給出 OpenCLIP 和 DINOv2 的對(duì)比,中間的圖片是 OpenCLIP 的效果,右邊是 DINOv2 分割的效果:

我們也用一張辦公室的圖片試了一下,看起來(lái) DINOv2 還是能比較準(zhǔn)確地分割人體、物體的,但在細(xì)節(jié)上會(huì)有一些噪點(diǎn):

最后是圖片檢索。

官網(wǎng)上給出的圖片效果還是挺不錯(cuò)的,輸入鐵塔照片,可以生成不少含鐵塔的相似藝術(shù)圖片:

這里我們也試了試,輸入一張華強(qiáng)買(mǎi)瓜,給出來(lái)的藝術(shù)圖片大多數(shù)與西瓜有關(guān):

那么,這樣的自監(jiān)督視覺(jué)大模型可以用在哪里?

從 Meta 給出的視頻來(lái)看,目前有一些比較環(huán)保的用途,例如用于估計(jì)全球各地的樹(shù)木高度:

除此之外,如同扎克伯格所說(shuō),DINOv2 還能被用于改善醫(yī)學(xué)成像、糧食作物生長(zhǎng)等。當(dāng)然這里小扎還進(jìn)一步強(qiáng)調(diào):

可以被用于制作更具沉浸感的元宇宙。

嗯,看來(lái) Meta 的元宇宙路線還將繼續(xù)……

試玩 Demo 地址:

https://dinov2.metademolab.com/demos

項(xiàng)目地址:

https://github.com/facebookresearch/dinov2

參考鏈接:

  • https://www.facebook.com/zuck/posts/pfbid02f3chCYQphfYnzRaDXeJxsT5EmyhbrFsjqLaU31KuTG63Ca4yMXFcDXQcukYPbWUMl

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:蕭簫

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Meta,模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知