Meta 開(kāi)源多感官大模型,AI 用 6 種模態(tài)體驗(yàn)虛擬世界,聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

量子位 2023/5/11 13:06:01 責(zé)編:夢(mèng)澤

Meta 最新 6 模態(tài)大模型,讓 AI 以更接近人類(lèi)的方式理解這個(gè)世界。

比如當(dāng)你聽(tīng)見(jiàn)倒水聲的時(shí)候就會(huì)想到杯子,聽(tīng)到鬧鈴聲會(huì)想到鬧鐘,現(xiàn)在 AI 也可以。

盡管畫(huà)面中沒(méi)有出現(xiàn)人類(lèi),AI 聽(tīng)到掌聲也能指出最有可能來(lái)自電腦。

這個(gè)大模型 ImageBind 以視覺(jué)為核心,結(jié)合文本、聲音、深度、熱量(紅外輻射)、運(yùn)動(dòng)(慣性傳感器),最終可以做到 6 個(gè)模態(tài)之間任意的理解和轉(zhuǎn)換。

如果與其他 AI 結(jié)合,還可以做到跨模態(tài)的生成。

比如聽(tīng)到狗叫畫(huà)出一只狗,同時(shí)給出對(duì)應(yīng)的深度圖和文字描述。

甚至做到不同模態(tài)之間的運(yùn)算,如鳥(niǎo)的圖像 + 海浪的聲音,得到鳥(niǎo)在海邊的圖像。

團(tuán)隊(duì)在論文中寫(xiě)到,ImageBind 為設(shè)計(jì)和體驗(yàn)身臨其境的虛擬世界打開(kāi)了大門(mén)。

也就是離 Meta 心心念念的元宇宙又近了一步。

網(wǎng)友看到后也表示,又是一個(gè)掉下巴的進(jìn)展。

ImageBind 代碼已開(kāi)源,相關(guān)論文也被 CVPR 2023 選為 Highlight。

生成理解檢索都能干

對(duì)于聲音-圖像生成,論文中透露了更多細(xì)節(jié)。

并不是讓 AI 聽(tīng)到聲音后先生成文字的提示詞,而是 Meta 自己復(fù)現(xiàn)了一個(gè) DALL?E 2,并把其中的文本嵌入直接替換成了音頻嵌入。

結(jié)果就是 AI 聽(tīng)到雨聲可以畫(huà)出一張雨景,聽(tīng)到快艇發(fā)動(dòng)機(jī)啟動(dòng)聲可以畫(huà)出一條船。

其中比較有意思的是,床上沒(méi)有人,但 AI 也認(rèn)為打呼嚕聲應(yīng)該來(lái)自床。

ImageBind 能做到這些,核心方法是把所有模態(tài)的數(shù)據(jù)放入統(tǒng)一的聯(lián)合嵌入空間,無(wú)需使用每種不同模態(tài)組合對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。

并且用這種方法,只需要很少的人類(lèi)監(jiān)督。

如視頻天然就把畫(huà)面與聲音做了配對(duì),網(wǎng)絡(luò)中也可以收集到天然把圖像和文字配對(duì)的內(nèi)容等。

而以圖像 / 視頻為中心訓(xùn)練好 AI 后,對(duì)于原始數(shù)據(jù)中沒(méi)有直接聯(lián)系的模態(tài),比如語(yǔ)音和熱量,ImageBind 表現(xiàn)出涌現(xiàn)能力,把他們自發(fā)聯(lián)系起來(lái)。

在定量測(cè)試中,統(tǒng)一多模態(tài)的 ImageBind 在音頻和深度信息理解上也超越了對(duì)應(yīng)的專(zhuān)用模型。

Meta 團(tuán)隊(duì)認(rèn)為,當(dāng)人類(lèi)從世界吸收信息時(shí),我們天生會(huì)使用多種感官,而且人僅用極少數(shù)例子就能學(xué)習(xí)新概念的能力也來(lái)自于次。

比如人類(lèi)在書(shū)本中讀到對(duì)動(dòng)物的描述,之后就能在生活中認(rèn)出這種動(dòng)物,或看到一張不熟悉的汽車(chē)照片就能預(yù)測(cè)起發(fā)動(dòng)機(jī)的聲音。

過(guò)去 AI 沒(méi)有掌握這個(gè)技能,一大障礙就是要把所有可能的模態(tài)兩兩組合做數(shù)據(jù)配對(duì)難以實(shí)現(xiàn)。

現(xiàn)在有了多模態(tài)聯(lián)合學(xué)習(xí)的方法,就能規(guī)避這個(gè)問(wèn)題。

團(tuán)隊(duì)表示未來(lái)還將加入觸覺(jué)、語(yǔ)音、嗅覺(jué)和大腦 fMRI,進(jìn)一步探索多模態(tài)大模型的可能性

對(duì)于目前版本,Meta 也放出了一個(gè)簡(jiǎn)單的在線(xiàn) Demo,感興趣的話(huà)可以去試試。

Demo:

https://imagebind.metademolab.com/demo

GitHub:

https://github.com/facebookresearch/ImageBind

論文:

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

參考鏈接:

  • [1]https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:夢(mèng)晨

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,大模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知