10 月 18 日消息,先來看一段“視頻”,有沒有看出什么不對勁的地方?
其實,這僅僅是由一組照片渲染出來的(右下角為拍攝照片)!
生成的也不僅僅是一段視頻,更是一個 3D 場景模型,不僅能任意角度隨意切換、高清無死角,還能調(diào)節(jié)曝光、白平衡等參數(shù),生成“船新”的照片:
在完全不同的場景下,例如一個坦克廠中,同樣能用一組照片渲染出逼真 3D 場景,相同角度與真實拍攝圖像幾乎“完全一致”:
要知道,之前蘋果雖然也做過一組照片生成目標(biāo)物體 3D 模型的功能,但最多就是一件物體,例如一只箱子:
這次可是整個 3D 場景!
這是德國埃爾朗根-紐倫堡大學(xué)的幾位研究人員做的項目,效果一出就火得不行,在國外社交媒體上贊數(shù)超過 5k,閱讀量達(dá)到 36w+。
那么,這樣神奇的效果,究竟是怎么生成的呢?
用照片還原整個 3D 場景圖
整體來說,這篇論文提出了一種基于點的可微神經(jīng)渲染流水線 ADOP(Approximate Differentiable One-Pixel Point Rendering),用 AI 分析輸入圖像,并輸出新角度的新圖像。
在輸入時,由于需要建模 3D 場景,因此這里的照片需要經(jīng)過嚴(yán)格拍攝,來獲取整個場景的稀疏點云數(shù)據(jù)。
具體來說,作者在從照片獲取點云數(shù)據(jù)時,采用了 COLMAP。
先從多個不同的角度拍攝場景中的照片,其中每張照片的視角都會經(jīng)過嚴(yán)格控制。
然后采用 SfM(Structure From Motion,運動恢復(fù)結(jié)構(gòu))方法,來獲取相機內(nèi)外參數(shù),得到整個場景的 3D 重建數(shù)據(jù),也就是表示場景結(jié)構(gòu)的稀疏點云:
然后,包含點云等信息的場景數(shù)據(jù)會被輸入到流水線中,進(jìn)行進(jìn)一步的處理。
流水線(pipeline)主要分為三個部分:可微光柵化器、神經(jīng)渲染器和可微色調(diào)映射器。
首先,利用多分辨率的單像素點柵格化可微渲染器(可微光柵化器),將輸入的相機參數(shù)、重建的點云數(shù)據(jù)轉(zhuǎn)換成稀疏神經(jīng)圖像。
其中,模型里關(guān)于圖像和點云對齊的部分,采用了 NavVis 數(shù)據(jù)集來訓(xùn)練。
然后,利用神經(jīng)渲染器,對稀疏神經(jīng)圖像進(jìn)行陰影計算和孔洞填充,生成 HDR 圖片。
最后,由于不是每個設(shè)備都支持 HDR 畫面,因此在顯示到 LDR 設(shè)備之前,還需要利用基于物理的可微色調(diào)映射器改變動態(tài)范圍,將 HDR 圖像變成 LDR 圖像。
每個場景 300+ 圖像訓(xùn)練
這個新模型的優(yōu)勢在哪里?
由于模型的所有階段都可微,因此這個模型能夠優(yōu)化場景所有參數(shù)(相機模型、相機姿勢、點位置、點顏色、環(huán)境圖、渲染網(wǎng)絡(luò)權(quán)重、漸暈、相機響應(yīng)函數(shù)、每張圖像的曝光和每張圖像的白平衡),并用來生成質(zhì)量更高的圖像。
具體到訓(xùn)練上,作者先是采用了 688 張圖片(包含 73M 個點)來訓(xùn)練這個神經(jīng)渲染流水線(pipeline)。
針對 demo 中的幾個場景(火車、燈塔、游樂園、操場等),作者們分別用高端攝像機拍攝了 300~350 張全高清圖像,每個場景生成的像素點數(shù)量分別為 10M、8M、12M 和 11M,其中 5% 的圖像用作測試。
也就是說,制作這樣一個 3D 場景,大約需要幾百張圖像,同時每張圖像的拍攝需要經(jīng)過嚴(yán)格的角度控制。
不過仍然有讀者表示,拍幾百張圖像就能用 AI 做個場景出來,這個速度比當(dāng)前人工渲染是要快多了。
功能上,模型既能生成可以調(diào)節(jié)參數(shù)的新角度照片,還能自動插值生成全場景的 3D 渲染視頻,可以說是挺有潛力的。
那么,這個模型的效果與當(dāng)前其他模型的渲染效果相比如何呢?
實時顯示 1 億 + 像素點場景
據(jù)作者表示,論文中采用的高效單像素點柵格化方法,使得 ADOP 能夠使用任意的相機模型,并實時顯示超過 1 億個像素點的場景。
肉眼分辨生成結(jié)果來看,采用同行幾個最新模型生成的圖片,或多或少會出現(xiàn)一些偽影或是不真實的情況,相比之下 ADOP 在細(xì)節(jié)上處理得都非常不錯:
從數(shù)據(jù)來看,無論是火車、操場、坦克還是燈塔場景,在 ADOP 模型的渲染下,在 VGG、LPIPS 和 PSNR 上幾乎都能取得最優(yōu)秀的結(jié)果(除了坦克的數(shù)據(jù))。
不過,研究本身也還具有一些局限性,例如單像素點渲染仍然存在點云稀疏時,渲染出現(xiàn)孔洞等問題。
但整體來看,實時顯示 3D 場景的效果還是非常出類拔萃的,不少業(yè)內(nèi)人士表示“達(dá)到了 AI 渲染新高度”。
已經(jīng)有不少網(wǎng)友開始想象這項研究的用途,例如給電影制片廠省去一大波時間和精力:
(甚至有電影系的學(xué)生想直接用到畢設(shè)上)
對游戲行業(yè)影響也非常不錯:
在家就能搞 3A 大作的場景,是不是也要實現(xiàn)了?簡直讓人迫不及待。
還有人想象,要是能在 iPhone 上實現(xiàn)就好了(甚至已經(jīng)給 iPhone 15 預(yù)定上了):
對于研究本身,有網(wǎng)友從行外人視角看來,感覺更像是插幀模型(也有網(wǎng)友回應(yīng)說差不多是這樣):
也有網(wǎng)友表示,由于需要的圖像比較多,效果沒有宣傳中那么好,對研究潛力持保留態(tài)度:
雖然目前作者們已經(jīng)建立了 GitHub 項目,但代碼還沒有放出來,感興趣的同學(xué)們可以先蹲一波。
至于具體的開源時間,作者們表示“會在中了頂會后再放出來”。(祝這篇論文成功被頂會收錄~)
論文地址:點擊打開
項目地址 (代碼還沒 po 出來):點擊打開
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。