Stable Diffusion 背后公司 Stability AI 又上新了。
這次帶來(lái)的是圖生 3D 方面的新進(jìn)展:
基于 Stable Video Diffusion 的 Stable Video 3D(SV3D),只用一張圖片就能生成高質(zhì)量 3D 網(wǎng)格。
Stable Video Diffusion(SVD)是 Stability AI 此前推出的高分辨率視頻生成模型。也就是說(shuō),此番登場(chǎng)的 SV3D 首次將視頻擴(kuò)散模型應(yīng)用到了 3D 生成領(lǐng)域。
官方表示,基于此,SV3D 大大提高了 3D 生成的質(zhì)量和視圖一致性。
模型權(quán)重依然開(kāi)源,不過(guò)僅可用于非商業(yè)用途,想要商用的話(huà)還得買(mǎi)個(gè) Stability AI 會(huì)員~
話(huà)不多說(shuō),還是來(lái)扒一扒論文細(xì)節(jié)。
將視頻擴(kuò)散模型用于 3D 生成
引入潛在視頻擴(kuò)散模型,SV3D 的核心目的是利用視頻模型的時(shí)間一致性來(lái)提高 3D 生成的一致性。
并且視頻數(shù)據(jù)本身也比 3D 數(shù)據(jù)更容易獲得。
Stability AI 這次提供兩個(gè)版本的 SV3D:
SV3D_u:基于單張圖像生成軌道視頻。
SV3D_p:擴(kuò)展了 SV3D_u 的功能,可以根據(jù)指定的相機(jī)路徑創(chuàng)建 3D 模型視頻。
研究人員還改進(jìn)了 3D 優(yōu)化技術(shù):采用由粗到細(xì)的訓(xùn)練策略,優(yōu)化 NeRF 和 DMTet 網(wǎng)格來(lái)生成 3D 對(duì)象。
他們還設(shè)計(jì)了一種名為掩碼得分蒸餾采樣(SDS)的特殊損失函數(shù),通過(guò)優(yōu)化在訓(xùn)練數(shù)據(jù)中不直接可見(jiàn)的區(qū)域,來(lái)提高生成 3D 模型的質(zhì)量和一致性。
同時(shí),SV3D 引入了一個(gè)基于球面高斯的照明模型,用于分離光照效果和紋理,在保持紋理清晰度的同時(shí)有效減少了內(nèi)置照明問(wèn)題。
具體到架構(gòu)方面,SV3D 包含以下關(guān)鍵組成部分:
UNet:SV3D 是在 SVD 的基礎(chǔ)上構(gòu)建的,包含一個(gè)多層 UNet,其中每一層都有一系列殘差塊(包括 3D 卷積層)和兩個(gè)分別處理空間和時(shí)間信息的 Transformer 模塊。
條件輸入:輸入圖像通過(guò) VAE 編碼器嵌入到潛在空間中,會(huì)和噪聲潛在狀態(tài)合并,一起輸入到 UNet 中;輸入圖像的 CLIP 嵌入矩陣則被用作每個(gè) Transformer 模塊交叉注意力層的鍵值對(duì)。
相機(jī)軌跡編碼:SV3D 設(shè)計(jì)了靜態(tài)和動(dòng)態(tài)兩種類(lèi)型的軌道來(lái)研究相機(jī)姿態(tài)條件的影響。靜態(tài)軌道中,相機(jī)以規(guī)律間隔的方位角圍繞對(duì)象;動(dòng)態(tài)軌道則允許不規(guī)則間隔的方位角和不同的仰角。
相機(jī)的運(yùn)動(dòng)軌跡信息和擴(kuò)散噪聲的時(shí)間信息會(huì)一起輸入到殘差模塊中,轉(zhuǎn)換為正弦位置嵌入,然后這些嵌入信息會(huì)被整合并進(jìn)行線(xiàn)性變換,加入到噪聲時(shí)間步長(zhǎng)嵌入中。
這樣的設(shè)計(jì)旨在通過(guò)精細(xì)控制相機(jī)軌跡和噪聲輸入,提升模型處理圖像的能力。
此外,SV3D 在生成過(guò)程中采用 CFG(無(wú)分類(lèi)器引導(dǎo))來(lái)控制生成的清晰度,特別是在生成軌道的最后幾幀時(shí),采用三角形 CFG 縮放來(lái)避免過(guò)度銳化。
研究人員在 Objaverse 數(shù)據(jù)集上訓(xùn)練 SV3D,圖像分辨率為 575×576,視場(chǎng)角為 33.8 度。論文透露,所有三種模型(SV3D_u,SV3D_c,SV3D_p)在 4 個(gè)節(jié)點(diǎn)上訓(xùn)練了 6 天左右,每個(gè)節(jié)點(diǎn)配備 8 個(gè) 80GB 的 A100 GPU。
實(shí)驗(yàn)結(jié)果
在新視角合成(NVS)和 3D 重建方面,SV3D 超過(guò)了現(xiàn)有其他方法,達(dá)到 SOTA。
從定性比較的結(jié)果來(lái)看,SV3D 生成的多視角試圖,細(xì)節(jié)更豐富,更接近與原始輸入圖像。也就是說(shuō),SV3D 在理解和重構(gòu)物體的 3D 結(jié)構(gòu)方面,能夠更準(zhǔn)確地捕捉到細(xì)節(jié),并保持視角變換時(shí)的一致性。
這樣的成果,引發(fā)了不少網(wǎng)友的感慨:
可以想象,在未來(lái) 6-12 個(gè)月內(nèi),3D 生成技術(shù)將會(huì)被用到游戲和視頻項(xiàng)目中。
評(píng)論區(qū)也總少不了一些大膽的想法……
并且項(xiàng)目開(kāi)源嘛,已經(jīng)有第一波小伙伴玩上了,在 4090 上就能跑起來(lái)。
如果你也有第一手實(shí)測(cè)體會(huì),歡迎在評(píng)論區(qū)分享~
參考鏈接:
[1]https://twitter.com/StabilityAI/status/1769817136799855098
[2]https://stability.ai/news/introducing-stable-video-3d
[3]https://sv3d.github.io/index.html
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:魚(yú)羊
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。