首頁 > 智能時代>人工智能

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

量子位 2024/9/18 16:01:54 責編：汪淼

評論：

隨便給張圖就能從更多視角查看全景了？！

話不多說，先看一波效果，單視角輸入 be like：

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

難度升級，接下來換成雙視角，看起來銜接也非常絲滑。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

以上來自 ViewCrafter，由北大、港中文、騰訊等機構的研究人員提出，可以從單張或稀疏輸入圖像生成精確相機可控的新視角視頻。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

還支持場景級文生 3D、圖生 3D、以及稀疏視角重建等應用。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

目前論文和代碼均已開源，并提供了在線 Huggingface demo 供用戶使用。

ViewCrafter：一種新視角生成方法

傳統(tǒng)的新視角生成方法，如 NeRF 和 3D-GS 等技術，存在一個痛點：

依賴于密集的多視角訓練數(shù)據(jù)

這限制了它們在僅有稀疏（輸入圖像數(shù)量有限，不能提供完整視角或詳盡場景信息）甚至單張輸入視角的情況下的應用。

同時，傳統(tǒng)方法對訓練資源的需求較高，且不具備泛化能力，這限制了它們在訓練資源受限場景下的應用。

因此，ViewCrafter 最終想實現(xiàn)：

從稀疏視角圖像甚至單張輸入圖像中生成任意規(guī)模場景的新視角。

這需要模型對 3D 物理世界有全面的理解。

接下來一起康康具體咋實現(xiàn)的。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

概括而言，ViewCrafter 是基于點云先驗的可控視角視頻生成。

首先，快速多視圖 / 單視圖 stereo 技術的發(fā)展，使得從單張或稀疏圖像中快速重建點云表征成為可能。

點云表征能夠提供 3D 場景的粗略信息，支持精確的相機位置控制以實現(xiàn)自由視角渲染。

然而，由于點云的表示能力較弱，加之極其稀疏的輸入圖像只能提供有限的 3D 線索，重建出的點云存在大面積的遮擋和缺失區(qū)域，并可能面臨幾何形變和點云噪聲。

這些問題限制了其在新視角合成上的應用。

與此同時，在大規(guī)模視頻數(shù)據(jù)集上訓練的視頻擴散模型能夠深入理解 3D 物理世界，支持從單張圖像或文本提示中生成符合物理規(guī)律和現(xiàn)實世界規(guī)則的視頻內(nèi)容。

然而，現(xiàn)有的視頻擴散模型缺乏顯式的場景 3D 信息，因此在視頻生成過程中難以實現(xiàn)精確的相機視角控制。

針對這些優(yōu)缺點，團隊提出將視頻擴散模型的生成能力與點云表征提供的顯式 3D 先驗相結合，以實現(xiàn)相機精準可控的任意場景高保真度新視角視頻生成。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

具體而言，給定單張或稀疏視角輸入圖像，團隊首先使用快速多視圖 stereo 方法構建其點云表征，以實現(xiàn)精準地移動相機進行自由視角渲染。

隨后，為了解決點云渲染結果中存在的大面積缺失區(qū)域、幾何失真和點云偽影，團隊訓練了一個以點云渲染結果為控制信號的視頻擴散模型作為增強渲染器。

這一渲染器能在粗糙的點云渲染結果的基礎上進一步生成具有高保真度和 3D 一致性的新視角。

通過結合點云提供的顯式 3D 信息以及視頻擴散模型的強大生成能力，新方法能夠在視頻生成過程中實現(xiàn) 6 自由度的精準相機位姿控制，并生成高保真度、一致性強的新視角視頻。

相機軌跡規(guī)劃算法

▲ 相機軌跡規(guī)劃算法

此外，現(xiàn)有的視頻擴散模型難以生成長視頻，因為長視頻推理會造成巨大的計算開銷。

為了解決這一問題，研究采用了一種迭代式的新視角生成策略，并提出了一種內(nèi)容自適應的相機軌跡規(guī)劃算法，以逐步擴展新視角覆蓋的區(qū)域和重建的點云。

具體來說，從初始輸入圖像構建的點云開始，團隊首先利用相機軌跡規(guī)劃算法，從當前點云預測一段相機軌跡，以有效揭示遮擋和確實區(qū)域。

接著，團隊根據(jù)預測的軌跡渲染點云，并利用 ViewCrafter 根據(jù)渲染的點云生成高質量的新視角。

隨后利用生成的新視角更新點云，以擴展全局點云表征。

通過迭代執(zhí)行這些步驟，最終可以獲得覆蓋大視場范圍和擴展點云的高保真新視圖，并支持高斯重建等下游任務。

具體應用上，基于 ViewCrafter 和提出的迭代式新視角生成算法，可以從單張圖像 / 稀疏視角甚至一段文字描述中進行 3D 高斯重建，以支持實時渲染和沉浸式 3D 體驗。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

對比實驗

團隊從多個角度對比了新方法。

從新視角生成來看，團隊在 Tanks-and-Temples，CO3D，RealEstate10K 這三個真實世界數(shù)據(jù)集上與 SOTA 方法進行了定量和定性比較。

實驗結果證明，ViewCrafter 在相機位姿控制的精準程度，以及生成新視角的視覺質量上都優(yōu)于對比方法。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

在場景重建方面，團隊在 Tanks-and-Temples 數(shù)據(jù)集上與稀疏視角重建領域的 SOTA 方法進行了定量和定性比較。

結果證明，ViewCrafter 在 3D 高斯重建渲染出的新視角的視覺質量上也超過了對比方法。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

文生 3D 結果如下。左邊顯示了文本提示以及文生圖效果，后面是最終的 3D 效果。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

當然，團隊也進行了消融實驗。比如利用點云先驗作為視頻擴散模型控制信號的有效性。

具體而言，一些同期工作采用普呂克坐標作為視頻生成模型的控制信號，以實現(xiàn)相機可控的新視角生成。

作為對比，為了驗證點云控制信號的優(yōu)越性，團隊訓練了一個以普呂克坐標為控制信號的新視角生成模型，并進行控制變量實驗，保證除了控制信號外其他模型結構與 ViewCrafter 一致。

兩個模型在新視角生成任務上對比結果如下所示：

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

實驗結果證明，不管是在新視角生成質量還是在相機控制的精準程度上，團隊使用的基于點云的控制信號都要優(yōu)于基于普呂克坐標的控制信號。

另外，團隊驗證了模型對粗糙點云的魯棒性（Robust，健壯性）。

如圖所示，對于作為控制信號的點云具有嚴重幾何形變的情況，模型依然能夠有效地進行幾何糾錯和空洞修補。這證明了新方法對點云控制信號的魯棒性。

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

概括下來，團隊驗證了 ViewCrafter 對于靜態(tài)場景的強大新視角生成能力。

接下來，團隊計劃探索和單目視頻深度估計方法結合，實現(xiàn)單目動態(tài)視頻的新視角生成和 4D 重建。更多細節(jié)歡迎查閱原論文。

GitHub：https://github.com/Drexubery/ViewCrafter
項目主頁：https://drexubery.github.io/ViewCrafter/
論文：https://arxiv.org/abs/2409.02048
Huggingface Demo：https://huggingface.co/spaces/Doubiiu/ViewCrafter

本文來自微信公眾號：量子位（ID：QbitAI），作者：ViewCrafter 團隊，原標題《單圖就能解鎖全景視角！北大 / 港中文 / 騰訊等推出 ViewCrafter | 已開源》

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：全景，ViewCrafter，開源項目

單圖就能解鎖全景視角，北大 / 港中文 / 騰訊等推出 ViewCrafter 開源項目

ViewCrafter：一種新視角生成方法

對比實驗

相關文章