建立會做視頻的世界模型,也能通過 Transformer 來實現(xiàn)了!來自清華和極佳科技的研究人員聯(lián)手,推出了全新的視頻生成通用世界模型 ——WorldDreamer。它可以完成自然場景和自動駕駛場景多種視頻生成任務(wù),例如文生視頻、圖生視頻、視頻編輯、動作序列生視頻等。
據(jù)團隊介紹,通過預測 Token 的方式來建立通用場景世界模型,WorldDreamer 是業(yè)界首個。
它把視頻生成轉(zhuǎn)換為一個序列預測任務(wù),可以對物理世界的變化和運動規(guī)律進行充分地學習??梢暬瘜嶒炓呀?jīng)證明,WorldDreamer 已經(jīng)深刻理解了通用世界的動態(tài)變化規(guī)律。
那么,它都能完成哪些視頻任務(wù),效果如何呢?
支持多種視頻任務(wù)
圖像生成視頻(Image to Video)
WorldDreamer 可以基于單一圖像預測未來的幀。
只需首張圖像輸入,WorldDreamer 將剩余的視頻幀視為被掩碼的視覺 Token,并對這部分 Token 進行預測。
如下圖所示,WorldDreamer 具有生成高質(zhì)量電影級別視頻的能力。其生成的視頻呈現(xiàn)出無縫的逐幀運動,類似于真實電影中流暢的攝像機運動。而且,這些視頻嚴格遵循原始圖像的約束,確保幀構(gòu)圖的顯著一致性。
文本生成視頻(Text to Video)
WorldDreamer 還可以基于文本進行視頻生成。
僅僅給定語言文本輸入,此時 WorldDreamer 認為所有的視頻幀都是被掩碼的視覺 Token,并對這部分 Token 進行預測。
下圖展示了 WorldDreamer 在各種風格范式下從文本生成視頻的能力。生成的視頻與輸入語言無縫契合,其中用戶輸入的語言可以塑造視頻內(nèi)容、風格和相機運動。
視頻修改(Video Inpainting)
WorldDreamer 進一步可以實現(xiàn)視頻的 inpainting 任務(wù)。
具體來說,給定一段視頻,用戶可以指定 mask 區(qū)域,然后根據(jù)語言的輸入可以更改被 mask 區(qū)域的視頻內(nèi)容。
如下圖所示,WorldDreamer 可以將水母更換為熊,也可以將蜥蜴更換為猴子,且更換后的視頻高度符合用戶的語言描述。
視頻風格化(Video Stylization)
除此以外,WorldDreamer 可以實現(xiàn)視頻的風格化。
如下圖所示,輸入一個視頻段,其中某些像素被隨機掩碼,WorldDreamer 可以改變視頻的風格,例如根據(jù)輸入語言創(chuàng)建秋季主題效果。
基于動作合成視頻(Action to Video)
WorldDreamer 也可以實現(xiàn)在自動駕駛場景下的駕駛動作到視頻的生成。
如下圖所示,給定相同的初始幀以及不同的駕駛策略(如左轉(zhuǎn)、右轉(zhuǎn)),WorldDreamer 可以生成高度符合首幀約束以及駕駛策略的視頻。
那么,WorldDreamer 又是怎樣實現(xiàn)這些功能的呢?
用 Transformer 構(gòu)建世界模型
研究人員認為,目前最先進的視頻生成方法主要分為兩類 —— 基于 Transformer 的方法和基于擴散模型的方法。
利用 Transformer 進行 Token 預測可以高效學習到視頻信號的動態(tài)信息,并可以復用大語言模型社區(qū)的經(jīng)驗,因此,基于 Transformer 的方案是學習通用世界模型的一種有效途徑。
而基于擴散模型的方法難以在單一模型內(nèi)整合多種模態(tài),且難以拓展到更大參數(shù),因此很難學習到通用世界的變化和運動規(guī)律。
而當前的世界模型研究主要集中在游戲、機器人和自動駕駛領(lǐng)域,缺乏全面捕捉通用世界變化和運動規(guī)律的能力。
所以,研究團隊提出了 WorldDreamer 來加強對通用世界的變化和運動規(guī)律的學習理解,從而顯著增強視頻生成的能力。
借鑒大型語言模型的成功經(jīng)驗,WorldDreamer 采用 Transformer 架構(gòu),將世界模型建??蚣苻D(zhuǎn)換為一個無監(jiān)督的視覺 Token 預測問題。
具體的模型結(jié)構(gòu)如下圖所示:
WorldDreamer 首先使用視覺 Tokenizer 將視覺信號(圖像和視頻)編碼為離散的 Token。
這些 Token 在經(jīng)過掩蔽處理后,輸入給研究團隊提出的 Sptial Temporal Patchwuse Transformer(STPT)模塊。
同時,文本和動作信號被分別編碼為對應(yīng)的特征向量,以作為多模態(tài)特征一并輸入給 STPT。STPT 在內(nèi)部對視覺、語言、動作等特征進行充分的交互學習,并可以預測被掩碼部分的視覺 Token。最終,這些預測出的視覺 Token 可以用來完成各種各樣的視頻生成和視頻編輯任務(wù)。
值得注意的是,在訓練 WorldDreamer 時,研究團隊還構(gòu)建了 Visual-Text-Action(視覺-文本-動作)數(shù)據(jù)的三元組,訓練時的損失函數(shù)僅涉及預測被掩蔽的視覺 Token,沒有額外的監(jiān)督信號。
而在團隊提出的這個數(shù)據(jù)三元組中,只有視覺信息是必須的,也就是說,即使在沒有文本或動作數(shù)據(jù)的情況下,依然可以進行 WorldDreamer 的訓練。
這種模式不僅降低了數(shù)據(jù)收集的難度,還使得 WorldDreamer 可以支持在沒有已知或只有單一條件的情況下完成視頻生成任務(wù)。
研究團隊使用大量數(shù)據(jù)對 WorldDreamer 進行訓練,其中包括 20 億經(jīng)過清洗的圖像數(shù)據(jù)、1000 萬段通用場景的視頻、50 萬段高質(zhì)量語言標注的視頻、以及近千段自動駕駛場景視頻。
團隊對 10 億級別的可學習參數(shù)進行了百萬次迭代訓練,收斂后的 WorldDreamer 逐漸理解了物理世界的變化和運動規(guī)律,并擁有了各種的視頻生成和視頻編輯能力。
論文地址:
https://arxiv.org/abs/2401.09985
項目主頁:
https://world-dreamer.github.io/
本文來自微信公眾號:量子位 (ID:QbitAI),作者:允中
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。