Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

量子位 2024/3/19 16:07:19 責(zé)編：清源

評(píng)論：

Stable Diffusion 背后公司 Stability AI 又上新了。

這次帶來(lái)的是圖生 3D 方面的新進(jìn)展：

基于 Stable Video Diffusion 的 Stable Video 3D（SV3D），只用一張圖片就能生成高質(zhì)量 3D 網(wǎng)格。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

Stable Video Diffusion（SVD）是 Stability AI 此前推出的高分辨率視頻生成模型。也就是說(shuō)，此番登場(chǎng)的 SV3D 首次將視頻擴(kuò)散模型應(yīng)用到了 3D 生成領(lǐng)域。

官方表示，基于此，SV3D 大大提高了 3D 生成的質(zhì)量和視圖一致性。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

模型權(quán)重依然開(kāi)源，不過(guò)僅可用于非商業(yè)用途，想要商用的話(huà)還得買(mǎi)個(gè) Stability AI 會(huì)員~

話(huà)不多說(shuō)，還是來(lái)扒一扒論文細(xì)節(jié)。

將視頻擴(kuò)散模型用于 3D 生成

引入潛在視頻擴(kuò)散模型，SV3D 的核心目的是利用視頻模型的時(shí)間一致性來(lái)提高 3D 生成的一致性。

并且視頻數(shù)據(jù)本身也比 3D 數(shù)據(jù)更容易獲得。

Stability AI 這次提供兩個(gè)版本的 SV3D：

SV3D_u：基于單張圖像生成軌道視頻。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

SV3D_p：擴(kuò)展了 SV3D_u 的功能，可以根據(jù)指定的相機(jī)路徑創(chuàng)建 3D 模型視頻。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

研究人員還改進(jìn)了 3D 優(yōu)化技術(shù)：采用由粗到細(xì)的訓(xùn)練策略，優(yōu)化 NeRF 和 DMTet 網(wǎng)格來(lái)生成 3D 對(duì)象。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

他們還設(shè)計(jì)了一種名為掩碼得分蒸餾采樣（SDS）的特殊損失函數(shù)，通過(guò)優(yōu)化在訓(xùn)練數(shù)據(jù)中不直接可見(jiàn)的區(qū)域，來(lái)提高生成 3D 模型的質(zhì)量和一致性。

同時(shí)，SV3D 引入了一個(gè)基于球面高斯的照明模型，用于分離光照效果和紋理，在保持紋理清晰度的同時(shí)有效減少了內(nèi)置照明問(wèn)題。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

具體到架構(gòu)方面，SV3D 包含以下關(guān)鍵組成部分：

UNet：SV3D 是在 SVD 的基礎(chǔ)上構(gòu)建的，包含一個(gè)多層 UNet，其中每一層都有一系列殘差塊（包括 3D 卷積層）和兩個(gè)分別處理空間和時(shí)間信息的 Transformer 模塊。
條件輸入：輸入圖像通過(guò) VAE 編碼器嵌入到潛在空間中，會(huì)和噪聲潛在狀態(tài)合并，一起輸入到 UNet 中；輸入圖像的 CLIP 嵌入矩陣則被用作每個(gè) Transformer 模塊交叉注意力層的鍵值對(duì)。
相機(jī)軌跡編碼：SV3D 設(shè)計(jì)了靜態(tài)和動(dòng)態(tài)兩種類(lèi)型的軌道來(lái)研究相機(jī)姿態(tài)條件的影響。靜態(tài)軌道中，相機(jī)以規(guī)律間隔的方位角圍繞對(duì)象；動(dòng)態(tài)軌道則允許不規(guī)則間隔的方位角和不同的仰角。

相機(jī)的運(yùn)動(dòng)軌跡信息和擴(kuò)散噪聲的時(shí)間信息會(huì)一起輸入到殘差模塊中，轉(zhuǎn)換為正弦位置嵌入，然后這些嵌入信息會(huì)被整合并進(jìn)行線(xiàn)性變換，加入到噪聲時(shí)間步長(zhǎng)嵌入中。

這樣的設(shè)計(jì)旨在通過(guò)精細(xì)控制相機(jī)軌跡和噪聲輸入，提升模型處理圖像的能力。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

此外，SV3D 在生成過(guò)程中采用 CFG（無(wú)分類(lèi)器引導(dǎo)）來(lái)控制生成的清晰度，特別是在生成軌道的最后幾幀時(shí)，采用三角形 CFG 縮放來(lái)避免過(guò)度銳化。

研究人員在 Objaverse 數(shù)據(jù)集上訓(xùn)練 SV3D，圖像分辨率為 575×576，視場(chǎng)角為 33.8 度。論文透露，所有三種模型（SV3D_u，SV3D_c，SV3D_p）在 4 個(gè)節(jié)點(diǎn)上訓(xùn)練了 6 天左右，每個(gè)節(jié)點(diǎn)配備 8 個(gè) 80GB 的 A100 GPU。

實(shí)驗(yàn)結(jié)果

在新視角合成（NVS）和 3D 重建方面，SV3D 超過(guò)了現(xiàn)有其他方法，達(dá)到 SOTA。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩

從定性比較的結(jié)果來(lái)看，SV3D 生成的多視角試圖，細(xì)節(jié)更豐富，更接近與原始輸入圖像。也就是說(shuō)，SV3D 在理解和重構(gòu)物體的 3D 結(jié)構(gòu)方面，能夠更準(zhǔn)確地捕捉到細(xì)節(jié)，并保持視角變換時(shí)的一致性。

Stability AI 開(kāi)源上新：3D 生成引入視頻擴(kuò)散模型，質(zhì)量一致性 up，4090 可玩