設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

小扎親自官宣 Meta 視覺大模型,自監(jiān)督學(xué)習(xí)無需微調(diào),多任務(wù)效果超 OpenCLIP,開源

量子位 2023/4/18 13:41:03 責(zé)編:夢澤

無需文字標(biāo)簽,完全自監(jiān)督的 Meta 視覺大模型來了!

小扎親自官宣,發(fā)布即收獲大量關(guān)注度 ——

在語義分割、實(shí)例分割、深度估計和圖像檢索等任務(wù)中,這個名叫 DINOv2 的視覺大模型均取得了非常不錯的效果。

甚至有超過當(dāng)前最好的開源視覺模型 OpenCLIP 之勢。

雖然此前 Meta 就發(fā)布過自監(jiān)督學(xué)習(xí)視覺大模型 DINO,不過這次 AI 識別圖像特征的能力顯然更進(jìn)一步,準(zhǔn)確分割出了視頻中的主體:

可別以為 DINOv2 通過自監(jiān)督學(xué)會的只有圖片分割。事實(shí)上,它已經(jīng)能根據(jù)不同類別、不同場景下的照片,準(zhǔn)確識別出同種物體(狗)的頭部、身體和四肢長在哪:

換而言之,DINOv2 自己學(xué)會了找圖像特征。

目前 Meta 官方不僅已經(jīng)放出了開源代碼,而且還給了網(wǎng)頁版 Demo 試玩。有網(wǎng)友內(nèi)涵:

什么叫開源,LLaMA,SAM,DINOv2 這才叫開源!

一起來看看,DINOv2 的效果究竟如何。

準(zhǔn)確識別不同畫風(fēng)的同種物體

事實(shí)上,DINOv2 是基于上一代 DINOv1 打造的視覺大模型。

這個模型參數(shù)量是 10 億級,也仍然是視覺 Transformer 架構(gòu)(ViT),但與 DINO 不太一樣的是,這次 DINOv2 在數(shù)據(jù)集上經(jīng)過了精心挑選。

具體來說,DINOv2 構(gòu)建了一個數(shù)據(jù)篩選 pipeline,將內(nèi)容相似的圖片精心篩選出來,同時排除掉相同的圖片:

最終呈現(xiàn)給 DINOv2 的訓(xùn)練數(shù)據(jù)圖片雖然沒有文字標(biāo)簽,但這些圖片的特征確實(shí)是相似的。

采用這類數(shù)據(jù)訓(xùn)練出來的視覺模型,效果如何?

這是 DINOv2 在 8 個視覺任務(wù)上的表現(xiàn),包括語義分割、分類、深度估計等,其中橙色是自監(jiān)督方法的效果,深粉色是弱監(jiān)督方法的效果。

可以看見,經(jīng)過自監(jiān)督學(xué)習(xí)的視覺模型,表現(xiàn)上已經(jīng)與經(jīng)過弱監(jiān)督學(xué)習(xí)的模型性能相當(dāng)。

實(shí)際效果也不錯,即便在一系列照片中,相同物體的畫風(fēng)并不相似,DINOv2 也能準(zhǔn)確識別它們的特征,并分到相似的列表中。

如(a)組中都具有翅膀的鳥和飛機(jī)、(b)組中的大象和大象雕塑、(c)組中的汽車和汽車玩具模型、(d)組中的馬和涂鴉版馬:

而且從 PCA(主成分分析)圖像效果來看,DINOv2 不僅能準(zhǔn)確分類,還能用不同顏色標(biāo)出它們“相同”的部分,例如象鼻都是綠色、車輪都是紅色、馬的尾巴是黃色等。

換而言之,DINOv2 能理解這些圖像中的相似之處,就像人會形容飛機(jī)“看起來像一只鳥”一樣。

目前 DINOv2 已經(jīng)放出 Demo,我們也試了試它的實(shí)際效果。

Demo 直接可玩

官網(wǎng)已經(jīng)開放語義分割、圖像檢索和深度估計三大功能的試玩。

據(jù) Meta 介紹,這幾個任務(wù)中,DINOv2 在大多數(shù)基準(zhǔn)上超過了目前開源視覺模型中表現(xiàn)最好的 OpenCLIP。

我們先來看看深度估計的效果。

值得一提的是,在效果更好的情況下,DINOv2 運(yùn)行的速度也比 iBOT 更快,相同硬件下只需三分之一的內(nèi)存,運(yùn)行速度就能比 DINOv2 快上 2 倍多。

這是 Meta 論文中與 OpenCLIP 在實(shí)際例子上的比較效果:

我們用這張猛男版新寶島試一下,看起來還不錯,即使是高糊圖片也能比較好地估計出深度:

接下來是語義分割的效果,這里也先給出 Meta 論文中的數(shù)據(jù)對比情況:

這里也給出 OpenCLIP 和 DINOv2 的對比,中間的圖片是 OpenCLIP 的效果,右邊是 DINOv2 分割的效果:

我們也用一張辦公室的圖片試了一下,看起來 DINOv2 還是能比較準(zhǔn)確地分割人體、物體的,但在細(xì)節(jié)上會有一些噪點(diǎn):

最后是圖片檢索。

官網(wǎng)上給出的圖片效果還是挺不錯的,輸入鐵塔照片,可以生成不少含鐵塔的相似藝術(shù)圖片:

這里我們也試了試,輸入一張華強(qiáng)買瓜,給出來的藝術(shù)圖片大多數(shù)與西瓜有關(guān):

那么,這樣的自監(jiān)督視覺大模型可以用在哪里?

從 Meta 給出的視頻來看,目前有一些比較環(huán)保的用途,例如用于估計全球各地的樹木高度:

除此之外,如同扎克伯格所說,DINOv2 還能被用于改善醫(yī)學(xué)成像、糧食作物生長等。當(dāng)然這里小扎還進(jìn)一步強(qiáng)調(diào):

可以被用于制作更具沉浸感的元宇宙。

嗯,看來 Meta 的元宇宙路線還將繼續(xù)……

試玩 Demo 地址:

https://dinov2.metademolab.com/demos

項目地址:

https://github.com/facebookresearch/dinov2

參考鏈接:

  • https://www.facebook.com/zuck/posts/pfbid02f3chCYQphfYnzRaDXeJxsT5EmyhbrFsjqLaU31KuTG63Ca4yMXFcDXQcukYPbWUMl

本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭簫

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Meta,模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知