Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

量子位 2023/5/11 13:06:01 責(zé)編：夢(mèng)澤

評(píng)論：

Meta 最新 6 模態(tài)大模型，讓 AI 以更接近人類(lèi)的方式理解這個(gè)世界。

比如當(dāng)你聽(tīng)見(jiàn)倒水聲的時(shí)候就會(huì)想到杯子，聽(tīng)到鬧鈴聲會(huì)想到鬧鐘，現(xiàn)在 AI 也可以。

盡管畫(huà)面中沒(méi)有出現(xiàn)人類(lèi)，AI 聽(tīng)到掌聲也能指出最有可能來(lái)自電腦。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

這個(gè)大模型 ImageBind 以視覺(jué)為核心，結(jié)合文本、聲音、深度、熱量（紅外輻射）、運(yùn)動(dòng)（慣性傳感器），最終可以做到 6 個(gè)模態(tài)之間任意的理解和轉(zhuǎn)換。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

如果與其他 AI 結(jié)合，還可以做到跨模態(tài)的生成。

比如聽(tīng)到狗叫畫(huà)出一只狗，同時(shí)給出對(duì)應(yīng)的深度圖和文字描述。

甚至做到不同模態(tài)之間的運(yùn)算，如鳥(niǎo)的圖像 + 海浪的聲音，得到鳥(niǎo)在海邊的圖像。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

團(tuán)隊(duì)在論文中寫(xiě)到，ImageBind 為設(shè)計(jì)和體驗(yàn)身臨其境的虛擬世界打開(kāi)了大門(mén)。

也就是離 Meta 心心念念的元宇宙又近了一步。

網(wǎng)友看到后也表示，又是一個(gè)掉下巴的進(jìn)展。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

ImageBind 代碼已開(kāi)源，相關(guān)論文也被 CVPR 2023 選為 Highlight。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

生成理解檢索都能干

對(duì)于聲音-圖像生成，論文中透露了更多細(xì)節(jié)。

并不是讓 AI 聽(tīng)到聲音后先生成文字的提示詞，而是 Meta 自己復(fù)現(xiàn)了一個(gè) DALL?E 2，并把其中的文本嵌入直接替換成了音頻嵌入。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

結(jié)果就是 AI 聽(tīng)到雨聲可以畫(huà)出一張雨景，聽(tīng)到快艇發(fā)動(dòng)機(jī)啟動(dòng)聲可以畫(huà)出一條船。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

其中比較有意思的是，床上沒(méi)有人，但 AI 也認(rèn)為打呼嚕聲應(yīng)該來(lái)自床。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

ImageBind 能做到這些，核心方法是把所有模態(tài)的數(shù)據(jù)放入統(tǒng)一的聯(lián)合嵌入空間，無(wú)需使用每種不同模態(tài)組合對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

并且用這種方法，只需要很少的人類(lèi)監(jiān)督。

如視頻天然就把畫(huà)面與聲音做了配對(duì)，網(wǎng)絡(luò)中也可以收集到天然把圖像和文字配對(duì)的內(nèi)容等。

而以圖像 / 視頻為中心訓(xùn)練好 AI 后，對(duì)于原始數(shù)據(jù)中沒(méi)有直接聯(lián)系的模態(tài)，比如語(yǔ)音和熱量，ImageBind 表現(xiàn)出涌現(xiàn)能力，把他們自發(fā)聯(lián)系起來(lái)。

在定量測(cè)試中，統(tǒng)一多模態(tài)的 ImageBind 在音頻和深度信息理解上也超越了對(duì)應(yīng)的專(zhuān)用模型。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

Meta 團(tuán)隊(duì)認(rèn)為，當(dāng)人類(lèi)從世界吸收信息時(shí)，我們天生會(huì)使用多種感官，而且人僅用極少數(shù)例子就能學(xué)習(xí)新概念的能力也來(lái)自于次。

比如人類(lèi)在書(shū)本中讀到對(duì)動(dòng)物的描述，之后就能在生活中認(rèn)出這種動(dòng)物，或看到一張不熟悉的汽車(chē)照片就能預(yù)測(cè)起發(fā)動(dòng)機(jī)的聲音。

過(guò)去 AI 沒(méi)有掌握這個(gè)技能，一大障礙就是要把所有可能的模態(tài)兩兩組合做數(shù)據(jù)配對(duì)難以實(shí)現(xiàn)。

現(xiàn)在有了多模態(tài)聯(lián)合學(xué)習(xí)的方法，就能規(guī)避這個(gè)問(wèn)題。

團(tuán)隊(duì)表示未來(lái)還將加入觸覺(jué)、語(yǔ)音、嗅覺(jué)和大腦 fMRI，進(jìn)一步探索多模態(tài)大模型的可能性

對(duì)于目前版本，Meta 也放出了一個(gè)簡(jiǎn)單的在線(xiàn) Demo，感興趣的話(huà)可以去試試。

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

Demo：

https://imagebind.metademolab.com/demo

GitHub：

https://github.com/facebookresearch/ImageBind

論文：

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

參考鏈接：

[1]https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：夢(mèng)晨

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Meta 開(kāi)源多感官大模型，AI 用 6 種模態(tài)體驗(yàn)虛擬世界，聽(tīng)引擎聲就會(huì)畫(huà)汽車(chē)

生成理解檢索都能干

相關(guān)文章