LeCun 的世界模型終于來了,可謂是眾望所歸。既然大模型已經(jīng)學(xué)會(huì)了理解世界、像人一樣推理,是不是 AGI 也不遠(yuǎn)了?
長久以來,LeCun 理想中的 AI,一直是通往人類水平的 AI,為此他提出了「世界模型」的構(gòu)想。
而最近,LeCun 在公開演講中,再次批評(píng)了 GPT 大模型:根據(jù)概率生成自回歸的大模型,根本無法破除幻覺難題。甚至直接發(fā)出斷言:GPT 模型活不過 5 年。
今天,LeCun 終于離自己的夢(mèng)想又近了一步!
Meta 震撼發(fā)布了一個(gè)「類人」的人工智能模型 I-JEPA,它可以比現(xiàn)有模型更準(zhǔn)確地分析和完成缺失的圖像。
劃重點(diǎn):I-JEPA 填充缺失片段時(shí),用的就是有關(guān)世界的背景知識(shí)!而不是像其他模型那樣,僅僅通過查看附近的像素。
距離提出「世界模型」概念一年多,眼看著 LeCun 就要實(shí)現(xiàn)自己的星辰大海了。
今天,訓(xùn)練代碼和模型已經(jīng)開源。論文將于下周在 CVPR 2023 發(fā)表。
LeCun 的世界模型來了
即使是如今最先進(jìn)的 AI 系統(tǒng),也始終無法突破一些關(guān)鍵限制。
為了突破這層桎梏,Meta 的首席 AI 科學(xué)家 Yann LeCun 提出了一種新的架構(gòu)。
他的愿景是,創(chuàng)造出一個(gè)機(jī)器,讓它能夠?qū)W習(xí)世界如何運(yùn)作的內(nèi)部模型,這樣它就可以更快速地學(xué)習(xí),為完成復(fù)雜任務(wù)做出計(jì)劃,并且隨時(shí)應(yīng)對(duì)不熟悉的新情況。
今天 Meta 推出的圖像聯(lián)合嵌入預(yù)測(cè)架構(gòu) I-JEPA 模型,是史上第一個(gè)基于 LeCun 世界模型愿景關(guān)鍵部分的 AI 模型。
I-JEPA 就是通過創(chuàng)建外部世界的內(nèi)部模型來學(xué)習(xí)。在補(bǔ)全圖像的過程中,它比較的是圖像的抽象表征,而不是比較像素本身。
在多個(gè)計(jì)算機(jī)視覺任務(wù)上,I-JEPA 都表現(xiàn)出了強(qiáng)大的性能,并且比其他廣泛使用的 CV 模型計(jì)算效率高得多。
I-JEPA 學(xué)習(xí)的表示形式可以用于許多不同的應(yīng)用,而無需進(jìn)行大量的微調(diào)。
比如,研究者在 72 小時(shí)內(nèi)使用 16 個(gè) A100 GPU,就訓(xùn)練出了一個(gè) 632M 參數(shù)的視覺 Transformer 模型。
在 ImageNet 上的 low-shot 分類任務(wù)上,它達(dá)到了 SOTA,每個(gè)類降低到 12 個(gè)標(biāo)記示例。
而其他方法通常需要 2 到 10 倍的 GPU 小時(shí),并且使用相同數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),錯(cuò)誤率也更高。
通過自監(jiān)督學(xué)習(xí)獲取常識(shí)
通常,人類只要通過被動(dòng)觀察,就能學(xué)習(xí)到有關(guān)世界的大量背景知識(shí)。
根據(jù)推測(cè),似乎這種常識(shí)信息正是實(shí)現(xiàn)智能行為的關(guān)鍵,比如獲取新概念、基礎(chǔ)和計(jì)劃的有效樣本。
Meta 在 I-JEPA(以及更普遍的聯(lián)合嵌入預(yù)測(cè)架構(gòu) JEPA 模型)上的工作,正是基于這樣一個(gè)事實(shí)。
研究者嘗試的是,設(shè)計(jì)出一種學(xué)習(xí)算法,捕捉關(guān)于世界的常識(shí)背景知識(shí),然后將其編碼為算法可以訪問的數(shù)字表征。
為了達(dá)到足夠的效率,系統(tǒng)必須以自監(jiān)督的方式學(xué)習(xí)這些表征 —— 也就是說,直接從圖像或聲音等未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),而不是從手動(dòng)組合的標(biāo)記數(shù)據(jù)集中學(xué)習(xí)。
在更高的層級(jí)上,JEPA 旨在根據(jù)同一輸入(圖像或文本)的其他部分的表征,來預(yù)測(cè)輸入的部分表征。
因?yàn)樗簧婕皩D像的多個(gè)視圖 / 增強(qiáng)的表征折疊到一個(gè)點(diǎn)上,所以 JEPA 有很大希望能夠避免在廣泛使用的方法(即基于不變性的預(yù)訓(xùn)練)中出現(xiàn)的偏見和問題。
同時(shí),通過在高度抽象的水平上預(yù)測(cè)表征,而不是直接預(yù)測(cè)像素值,JEPA 有望能夠直接學(xué)習(xí)有用的表征,同時(shí)避免生成方法的局限性,正是基于這個(gè)原因,最近才產(chǎn)生了如此多令人興奮的大語言模型。
相比之下,一般的生成式模型是通過移除或扭曲輸入模型的部分內(nèi)容來學(xué)習(xí)的。
例如,抹去照片的一部分,或者隱藏文本段落中的某些字,然后試著預(yù)測(cè)被破壞或丟失的像素或單詞。
但這種方法的一個(gè)顯著缺點(diǎn)是,盡管世界本身是不可預(yù)測(cè)的,模型卻試圖填補(bǔ)每一塊缺失的信息。
因而,這種方法可能會(huì)犯人永遠(yuǎn)不會(huì)犯的錯(cuò)誤,因?yàn)樗鼈儠?huì)過于關(guān)注不相干的細(xì)節(jié),而不是捕捉更高級(jí)的可預(yù)測(cè)的概念。
一個(gè)眾所周知的例子就是,生成式模型很難生成正確的人手。
在自監(jiān)督學(xué)習(xí)的通用架構(gòu)中,系統(tǒng)會(huì)學(xué)習(xí)捕捉不同輸入之間的關(guān)系。
它的目標(biāo)是,將高能量分配給不兼容的輸入,將低能量分配給兼容的輸入。
這三種架構(gòu)的區(qū)別是 ——
(a) 聯(lián)合嵌入(不變)架構(gòu)會(huì)學(xué)習(xí)為兼容的輸入 x、y 輸出相似的嵌入,為不兼容的輸入輸出不相似的嵌入。
(b) 生成式架構(gòu)會(huì)學(xué)習(xí)直接從兼容的信號(hào) x 重建信號(hào) y,使用以附加變量 z(可能是潛變量)為條件的解碼器網(wǎng)絡(luò),以促進(jìn)重建。
(c) 聯(lián)合嵌入預(yù)測(cè)架構(gòu)學(xué)習(xí)從兼容信號(hào) x 中預(yù)測(cè)信號(hào) y 的嵌入,使用以附加變量 z(可能是潛變量)為條件的預(yù)測(cè)網(wǎng)絡(luò),來促進(jìn)預(yù)測(cè)。
聯(lián)合嵌入預(yù)測(cè)架構(gòu)
I-JEPA 背后的原理是通過一種更類似于人類理解的抽象表征來預(yù)測(cè)缺失的信息。
為了引導(dǎo) I-JEPA 產(chǎn)生語義表征,其中一個(gè)核心設(shè)計(jì)便是多塊掩碼策略。
具體而言,團(tuán)隊(duì)證明了預(yù)測(cè)包含語義信息的大塊的重要性。這些大塊具有足夠大的規(guī)模,可以涵蓋重要的語義特征。
這種策略的優(yōu)勢(shì)在于,它能夠減少不必要的細(xì)節(jié),并提供更高層次的語義理解。
通過關(guān)注大塊的語義信息,模型可以更好地抓住圖像或文本中的重要概念,從而實(shí)現(xiàn)更強(qiáng)大的預(yù)測(cè)能力。
基于圖像的聯(lián)合嵌入預(yù)測(cè)架構(gòu)(I-JEPA)使用單個(gè)上下文塊來預(yù)測(cè)來自同一圖像的表征
其中,上下文編碼器是一個(gè)視覺 Transformer(ViT),它只處理可見的上下文 patch。
預(yù)測(cè)器是一個(gè)窄的 ViT,它接收上下文編碼器的輸出,并根據(jù)目標(biāo)的位置 token,來預(yù)測(cè)目標(biāo)塊的表征。
目標(biāo)表征對(duì)應(yīng)于目標(biāo)編碼器的輸出,其權(quán)重在每次迭代時(shí),通過對(duì)上下文編碼器權(quán)重的指數(shù)移動(dòng)平均進(jìn)行更新。
在 I-JEPA 中,預(yù)測(cè)器可以被視為一個(gè)原始(且受限)的世界模型,它能夠利用已知的上下文信息來推斷未知區(qū)域的內(nèi)容。
這種能力使得模型能夠?qū)o態(tài)圖像進(jìn)行推理,從而建立一種對(duì)圖像中的空間不確定性的理解。
與僅關(guān)注像素級(jí)細(xì)節(jié)的方法不同,I-JEPA 能夠預(yù)測(cè)未見區(qū)域的高層次語義信息,從而更好地捕捉圖像的語義內(nèi)容。
對(duì)于每個(gè)圖像,藍(lán)色框之外的部分被編碼并作為上下文提供給預(yù)測(cè)器。而預(yù)測(cè)器則輸出了代表藍(lán)色框內(nèi)預(yù)期內(nèi)容的表征。
為了理解模型捕捉的內(nèi)容,團(tuán)隊(duì)訓(xùn)練了一個(gè)隨機(jī)解碼器,將 I-JEPA 預(yù)測(cè)的表征映射回像素空間,從而展示了在藍(lán)色框內(nèi)進(jìn)行預(yù)測(cè)時(shí)模型的輸出。
顯然,預(yù)測(cè)器能夠識(shí)別出應(yīng)該填充部分的語義信息(狗頭頂部、鳥的腿、狼的腿、建筑物的另一側(cè))。
簡(jiǎn)而言之,I-JEPA 能夠?qū)W習(xí)對(duì)象部分的高級(jí)表征,而且也不會(huì)丟棄它們?cè)趫D像中的局部位置信息。
更高的效率,更強(qiáng)的性能
在預(yù)訓(xùn)練上,I-JEPA 的計(jì)算更加高效。
首先,它不需要應(yīng)用更加計(jì)算密集的數(shù)據(jù)增強(qiáng)來生成多個(gè)視圖,因此不會(huì)帶來額外的開銷。
其次,其中的目標(biāo)編碼器只需對(duì)圖像的一個(gè)視圖進(jìn)行處理,而上下文編碼器也只需對(duì)上下文塊進(jìn)行處理。
實(shí)驗(yàn)證明,I-JEPA 能夠在不使用人工視圖增強(qiáng)的情況下,學(xué)習(xí)到強(qiáng)大的現(xiàn)成語義表征。
此外,在 ImageNet-1K 線性探測(cè)和半監(jiān)督評(píng)估中,I-JEPA 的表現(xiàn)也優(yōu)于像素重建和 token 重建方法。
在語義任務(wù)上,I-JEPA 與之前依賴于人工數(shù)據(jù)進(jìn)行增強(qiáng)的預(yù)訓(xùn)練方法相比,表現(xiàn)更加出色。
與這些方法相比,I-JEPA 在低級(jí)視覺任務(wù)(如物體計(jì)數(shù)和深度預(yù)測(cè))上實(shí)現(xiàn)了更好的性能。
通過使用更簡(jiǎn)單、更靈活的歸納偏置模型,I-JEPA 可以用在更廣泛的任務(wù)上。
低樣本分類準(zhǔn)確率:對(duì) ImageNet-1k 進(jìn)行半監(jiān)督評(píng)估,使用 1% 的標(biāo)簽(每個(gè)類別大約有 12 張帶標(biāo)簽的圖像)
AI 向人類智能更進(jìn)了一步
I-JEPA 展示了架構(gòu)在學(xué)習(xí)現(xiàn)成圖像表征方面的潛力,而且還不需通過人工制作的知識(shí)作為額外的輔助。
推進(jìn) JEPA 以從更豐富的模態(tài)中學(xué)習(xí)更通用的世界模型,將會(huì)是一樣特別有意義的工作。
例如,從短的上下文中,對(duì)視頻進(jìn)行長程的空間和時(shí)間預(yù)測(cè),并將這些預(yù)測(cè)基于音頻或文本提示進(jìn)行條件化。
團(tuán)隊(duì)表示,期待著將 JEPA 方法擴(kuò)展到其他領(lǐng)域,如圖像-文本配對(duì)數(shù)據(jù)和視頻數(shù)據(jù)。
未來,JEPA 模型會(huì)在視頻理解等任務(wù)中可能具有令人興奮的應(yīng)用。而這也將是應(yīng)用和擴(kuò)展自監(jiān)督方法來學(xué)習(xí)世界模型的重要一步。
預(yù)訓(xùn)練模型
單 GPU 訓(xùn)練
在單 GPU 設(shè)置中,實(shí)現(xiàn)從 main.py 開始。
例如,要使用配置 configs / in1k_vith14_ep300.yaml 在本地計(jì)算機(jī)上的 GPU 0、1 和 2 上運(yùn)行 I-JEPA 預(yù)訓(xùn)練,請(qǐng)輸入以下命令:
python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2
注意:ViT-H / 14 配置應(yīng)在 16 個(gè) A100 80G 顯卡上運(yùn)行,有效批大小為 2048,才能復(fù)現(xiàn)結(jié)果。
多 GPU 訓(xùn)練
在多 GPU 設(shè)置中,實(shí)現(xiàn)從 main_distributed.py 開始,除了解析配置文件外,還允許指定有關(guān)分布式訓(xùn)練的詳細(xì)信息。
對(duì)于分布式訓(xùn)練,需要使用流行的開源 submitit 工具,并提供 SLURM 集群的示例。
例如,要使用 configs / in1k_vith14_ep300.yaml 中指定的預(yù)訓(xùn)練實(shí)驗(yàn)配置在 16 個(gè) A100 80G 顯卡上進(jìn)行預(yù)訓(xùn)練,請(qǐng)輸入以下命令:
python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --tasks-per-node 8 \ --time 1000
網(wǎng)友評(píng)論
對(duì)于 LeCun 領(lǐng)銜的這項(xiàng)新工作,網(wǎng)友們紛紛表示贊賞。
真是開創(chuàng)性的工作,吹爆了。自回歸模型的繼任者就在這里!
我相信,聯(lián)合嵌入架構(gòu)是人工智能的未來,而不是生成式的。但我就是很好奇,為什么我們不進(jìn)一步研究多模態(tài)(如 ImageBind,而不僅僅是文本-圖像對(duì)),并且用像編碼器這樣的感知器來代替 VIT 編碼器?
很簡(jiǎn)潔的工作。在我的理解中,它類似于掩蔽自動(dòng)編碼器,但在潛在空間中定義時(shí)會(huì)丟失功能,而不是輸入 / 像素空間。不過,如果要詳細(xì)看懂,我還需要更多細(xì)節(jié)。
我的大腦只能看懂論文的 10%,但如果 I-JEPA 真的能創(chuàng)建圖 3 中的目標(biāo)圖像,那就太神奇了,最重要的是:它和 AI 生成的 MMORPG 是相關(guān)的!
這個(gè)項(xiàng)目即將開源,網(wǎng)友也對(duì) Meta 對(duì)于開源社區(qū)的貢獻(xiàn)表示贊賞。
參考資料:
https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。