Meta 最新 6 模態(tài)大模型,讓 AI 以更接近人類(lèi)的方式理解這個(gè)世界。
比如當(dāng)你聽(tīng)見(jiàn)倒水聲的時(shí)候就會(huì)想到杯子,聽(tīng)到鬧鈴聲會(huì)想到鬧鐘,現(xiàn)在 AI 也可以。
盡管畫(huà)面中沒(méi)有出現(xiàn)人類(lèi),AI 聽(tīng)到掌聲也能指出最有可能來(lái)自電腦。
這個(gè)大模型 ImageBind 以視覺(jué)為核心,結(jié)合文本、聲音、深度、熱量(紅外輻射)、運(yùn)動(dòng)(慣性傳感器),最終可以做到 6 個(gè)模態(tài)之間任意的理解和轉(zhuǎn)換。
如果與其他 AI 結(jié)合,還可以做到跨模態(tài)的生成。
比如聽(tīng)到狗叫畫(huà)出一只狗,同時(shí)給出對(duì)應(yīng)的深度圖和文字描述。
甚至做到不同模態(tài)之間的運(yùn)算,如鳥(niǎo)的圖像 + 海浪的聲音,得到鳥(niǎo)在海邊的圖像。
團(tuán)隊(duì)在論文中寫(xiě)到,ImageBind 為設(shè)計(jì)和體驗(yàn)身臨其境的虛擬世界打開(kāi)了大門(mén)。
也就是離 Meta 心心念念的元宇宙又近了一步。
網(wǎng)友看到后也表示,又是一個(gè)掉下巴的進(jìn)展。
ImageBind 代碼已開(kāi)源,相關(guān)論文也被 CVPR 2023 選為 Highlight。
生成理解檢索都能干
對(duì)于聲音-圖像生成,論文中透露了更多細(xì)節(jié)。
并不是讓 AI 聽(tīng)到聲音后先生成文字的提示詞,而是 Meta 自己復(fù)現(xiàn)了一個(gè) DALL?E 2,并把其中的文本嵌入直接替換成了音頻嵌入。
結(jié)果就是 AI 聽(tīng)到雨聲可以畫(huà)出一張雨景,聽(tīng)到快艇發(fā)動(dòng)機(jī)啟動(dòng)聲可以畫(huà)出一條船。
其中比較有意思的是,床上沒(méi)有人,但 AI 也認(rèn)為打呼嚕聲應(yīng)該來(lái)自床。
ImageBind 能做到這些,核心方法是把所有模態(tài)的數(shù)據(jù)放入統(tǒng)一的聯(lián)合嵌入空間,無(wú)需使用每種不同模態(tài)組合對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。
并且用這種方法,只需要很少的人類(lèi)監(jiān)督。
如視頻天然就把畫(huà)面與聲音做了配對(duì),網(wǎng)絡(luò)中也可以收集到天然把圖像和文字配對(duì)的內(nèi)容等。
而以圖像 / 視頻為中心訓(xùn)練好 AI 后,對(duì)于原始數(shù)據(jù)中沒(méi)有直接聯(lián)系的模態(tài),比如語(yǔ)音和熱量,ImageBind 表現(xiàn)出涌現(xiàn)能力,把他們自發(fā)聯(lián)系起來(lái)。
在定量測(cè)試中,統(tǒng)一多模態(tài)的 ImageBind 在音頻和深度信息理解上也超越了對(duì)應(yīng)的專(zhuān)用模型。
Meta 團(tuán)隊(duì)認(rèn)為,當(dāng)人類(lèi)從世界吸收信息時(shí),我們天生會(huì)使用多種感官,而且人僅用極少數(shù)例子就能學(xué)習(xí)新概念的能力也來(lái)自于次。
比如人類(lèi)在書(shū)本中讀到對(duì)動(dòng)物的描述,之后就能在生活中認(rèn)出這種動(dòng)物,或看到一張不熟悉的汽車(chē)照片就能預(yù)測(cè)起發(fā)動(dòng)機(jī)的聲音。
過(guò)去 AI 沒(méi)有掌握這個(gè)技能,一大障礙就是要把所有可能的模態(tài)兩兩組合做數(shù)據(jù)配對(duì)難以實(shí)現(xiàn)。
現(xiàn)在有了多模態(tài)聯(lián)合學(xué)習(xí)的方法,就能規(guī)避這個(gè)問(wèn)題。
團(tuán)隊(duì)表示未來(lái)還將加入觸覺(jué)、語(yǔ)音、嗅覺(jué)和大腦 fMRI,進(jìn)一步探索多模態(tài)大模型的可能性
對(duì)于目前版本,Meta 也放出了一個(gè)簡(jiǎn)單的在線(xiàn) Demo,感興趣的話(huà)可以去試試。
Demo:
https://imagebind.metademolab.com/demo
GitHub:
https://github.com/facebookresearch/ImageBind
論文:
https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
參考鏈接:
[1]https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:夢(mèng)晨
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。