原文標題:《AIGC 發(fā)展太快!Meta 發(fā)布首個基于文本的 4D 視頻合成器:3D 游戲建模師也要下崗了?》
文本到 2 維圖像、2 維視頻、3 維模型,現(xiàn)在終于發(fā)展到 3 維模型視頻了!
AI 生成模型在過去這段時間里取了巨大的進展,就圖像領(lǐng)域來說,用戶可以通過輸入自然語言提示來生成圖像(如 DALL-E 2,Stable Diffusion),也可以在時間維度上擴展生成連續(xù)的視頻(如 Phenaki),或者在空間維度上擴展直接生成 3D 模型(如 Dreamfusion)。
但到目前為止,這些任務(wù)仍然處于孤立的研究狀態(tài),彼此之間不存在技術(shù)交集。
最近 Meta AI 的研究人員結(jié)合了視頻和三維生成模型的優(yōu)勢,提出了一個全新的文本到四維(三維 + 時間)生成系統(tǒng) MAV3D(MakeA-Video3D),將自然語言描述作為輸入,并輸出一個動態(tài)的三維場景表示,可以從任意的視角進行渲染。
論文鏈接:https://arxiv.org/ abs / 2301.11280
項目鏈接:https://make-a-video3d.github.io/
MAV3D 也是第一個可以根據(jù)給定文本描述來生成三維動態(tài)場景的模型。
文中提出的方法使用了一個 4D 動態(tài)神經(jīng)輻射場 (NeRF) ,通過查詢基于文本到視頻 (T2V) 擴散的模型來優(yōu)化場景表現(xiàn)、密度和運動一致性,由提供的文本生成的動態(tài)視頻輸出可以從任何攝像機的位置和角度觀看,并且可以合成到任意的 3D 環(huán)境中。
該方法可用于為視頻游戲、視覺效果或增強型和虛擬現(xiàn)實生成 3D 資產(chǎn)。
與圖像生成和視頻生成任務(wù)不同的是,互聯(lián)網(wǎng)上有大量的 caption 數(shù)據(jù)可供訓練,但卻連一個現(xiàn)成的 4D 模型集合都沒有。
MAV3D 的訓練不需要任何 3D 或 4D 數(shù)據(jù),T2V 模型只需要在文本-圖像對和未標記的視頻上進行訓練。
在實驗部分,研究人員進行了全面的定量和定性實驗以證明該方法的有效性,對之前建立的內(nèi)部基線有明顯提升。
文本到 4D 動態(tài)場景
由于缺乏訓練數(shù)據(jù),研究人員為了解決這個任務(wù)構(gòu)想了幾種思路。
一種方法可能是找到一個預先訓練好的二維視頻生成器,并從生成的視頻中提煉出一個四維重建。不過從視頻中重建可變形物體的形狀仍然是一個非常具有挑戰(zhàn)性的問題,即非剛性運動結(jié)構(gòu)(Non-Rigid Structure from Motion, NRSfM)。
如果給定物體的多個同步視點(multiple simultaneous viewpoints),任務(wù)就變得簡單了。雖然多機位設(shè)置在真實數(shù)據(jù)中很少見,但研究人員認為,現(xiàn)有的視頻生成器隱含了生成場景的任意視點模型。
也就是說,可以將視頻生成器作為一個「統(tǒng)計學」的多攝像機設(shè)置來重建可變形物體的幾何和光度。
MAV3D 算法通過優(yōu)化動態(tài)神經(jīng)輻射場(NeRF)與將輸入文本解碼成視頻,對物體周圍的隨機視點進行采樣來實現(xiàn)該目的。
直接使用視頻生成器來優(yōu)化動態(tài) NeRF 并沒有取得令人滿意的結(jié)果,實現(xiàn)過程中還有幾個難題需要攻克:
1. 需要一個有效的、端到端可學習的動態(tài)三維場景表征;
2. 需要一個有監(jiān)督學習的數(shù)據(jù)源,因為目前并不存在大規(guī)模的(文本,4D)對的數(shù)據(jù)集可供學習;
3. 需要在空間和時間維度上擴展輸出的分辨率,因為 4D 輸出需要大量的內(nèi)存和計算能力;
MAV3D 模型
MAV3D 模型基于神經(jīng)輻射場(NeRFs)的最新工作,結(jié)合了高效(靜態(tài))NeRFs 和動態(tài) NeRFs 中的成果,并將 4D 場景表示為六個多分辨率特征平面的集合。
為了在沒有相應(yīng)(文本、4D)數(shù)據(jù)的情況下監(jiān)督這種表示,研究人員提出了一個用于動態(tài)場景渲染的多階段訓練 pipeline,并證明了每個組件在實現(xiàn)高質(zhì)量結(jié)果中的重要性。
一個比較關(guān)鍵的觀察結(jié)果是,使用 Text-to-Video(T2V)模型,利用 Score Distillation Sampling(SDS)直接優(yōu)化動態(tài)場景會導致視覺偽影和次優(yōu)收斂。
所以研究人員選擇首先利用文本到圖像(T2I)模型,將靜態(tài)的三維場景與文本提示相匹配,隨后再用動態(tài)的方式增強三維場景模型。
此外,模型中還引入了一個新的 temporal-aware SDS 損失和運動正則項,通過實驗證明了其對現(xiàn)實中和具有挑戰(zhàn)性的運動至關(guān)重要。
并且通過一個額外的 temporal-aware 超分辨率微調(diào)階段擴展到更高分辨率的輸出。
最后使用 T2V 模型的超級分辨率模塊的 SDS 來獲得高分辨率的梯度信息來進行有監(jiān)督學習三維場景模型,增加其視覺保真度,能夠在推理過程中對更高分辨率的輸出進行采樣。
實驗部分
評價指標
使用 CLIP R-Precision 來評估生成的視頻,可以用于衡量文本和生成場景之間的一致性,可以反應(yīng)輸入提示從渲染的框架中的檢索準確性。研究人員使用 CLIP 的 ViT-B / 32 變體,并在不同的視圖和時間步中提取幀。
除此之外還使用了四個定性指標,通過詢問人類標注員在兩個生成的視頻中的偏好,可以得出(i)視頻質(zhì)量;(ii)對文本提示的忠實度;(iii)運動量;以及(iv)運動的真實性。
Text-to-4D 對比
由于之前沒有文字轉(zhuǎn) 4D 的方法,所以研究人員建立了三個基于 T2V 生成方法的基線用于對比,二維幀的序列就會用三種不同的方法轉(zhuǎn)化為三維場景表示的序列。
第一個序列是通過 one-shot 神經(jīng)場景渲染器(Point-E)得到;第二個是通過對每一幀獨立應(yīng)用 pixelNeRF 生成的;第三個是應(yīng)用 D-NeRF 結(jié)合使用 COLMAP 提取的相機位置。
可以看出,該方法在客觀的 R-精度指標上超過了基線模型,并且在所有指標上都得到了人類標注員更高的評價。
此外,研究人員還探索了該方法在不同相機視角下的表現(xiàn)。
消融實驗
1、 在沒有場景超分辨率(SR)微調(diào)的情況下訓練的模型,其步驟數(shù)與 MAV3D 相同(階段 3)的情況下,人類標注員在質(zhì)量、文本對齊和運動方面都更傾向于選擇用 SR 訓練的模型。
此外,超分辨率微調(diào)增強了渲染視頻的質(zhì)量,使高分辨率視頻具有更精細的細節(jié)和更少的噪音。
2、無預訓練:在直接優(yōu)化動態(tài)場景(沒有靜態(tài)場景預訓練)的步驟與 MAV3D 相同的情況下,結(jié)果是場景質(zhì)量低得多或收斂性差:在 73% 和 65% 的情況下,用靜態(tài)預訓練的模型在視頻質(zhì)量和現(xiàn)實運動方面更受歡迎。
參考資料:
https://arxiv.org/abs/2301.11280
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。