設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

網(wǎng)上隨便搜的圖就能 AI 合成渲染手辦,甚至已有網(wǎng)友開發(fā)游戲 NFT

量子位 2022/2/20 18:07:15 責編:問舟

渲染一個精細到頭發(fā)和皮膚褶皺的龍珠 3D 手辦,有多復雜?對于經(jīng)典模型 NeRF 來說,至少需要同一個相機從特定距離拍攝的 100 張手辦照片。

但現(xiàn)在,一個新 AI 模型只需要 40 張來源不限的網(wǎng)絡圖片,就能把整個手辦渲染出來!

這些照片的拍攝角度、遠近和亮暗都沒有要求,還原出來的圖片卻能做到清晰無偽影:

甚至還能預估材質(zhì),并從任意角度重新打光:

這個 AI 模型名叫 NeROIC,是南加州大學和 Snap 團隊玩出來的新花樣。

有網(wǎng)友見狀狂喜:

不同角度的照片就能渲染 3D 模型,快進到只用照片來拍電影……

還有網(wǎng)友借機炒了波游戲 NFT(手動狗頭)

所以,NeROIC 究竟是如何僅憑任意 2D 輸入,就獲取到物體的 3D 形狀和性質(zhì)的呢?

基于 NeRF 改進,可預測材料光照

介紹這個模型之前,需要先簡單回顧一下 NeRF。

NeRF 提出了一種名叫神經(jīng)輻射場(neural radiance field)的方法,利用 5D 向量函數(shù)來表示連續(xù)場景,其中 5 個參數(shù)分別用來表示空間點的坐標位置(x,y,z)和視角方向(θ,φ)。

然而,NeRF 卻存在一些問題:

對輸入圖片的要求較高,必須是同一場景下拍攝的物體照片;

無法預測物體的材料屬性,因此無法改變渲染的光照條件。

這次的 NeROIC,就針對這兩方面進行了優(yōu)化:

輸入圖片的場景不限,可以是物體的任意背景照片,甚至是網(wǎng)絡圖片;

可以預測材料屬性,在渲染時可以改變物體表面光照效果(可以打光)。

它主要由 2 個網(wǎng)絡構(gòu)成,包括深度提取網(wǎng)絡(a)和渲染網(wǎng)絡(c)。

首先是深度提取網(wǎng)絡,用于提取物體的各種參數(shù)。

為了做到輸入場景不限,需要先讓 AI 學會從不同背景中摳圖,但由于 AI 對相機的位置估計得不準確,摳出來的圖片總是存在下面這樣的偽影(圖左):

因此,深度提取網(wǎng)絡引入了相機參數(shù),讓 AI 學習如何估計相機的位置,也就是估算圖片中的網(wǎng)友是從哪個角度拍攝、距離有多遠,摳出來的圖片接近真實效果(GT):

同時,設(shè)計了一種估計物體表面法線的新算法,在保留關(guān)鍵細節(jié)的同時,也消除了幾何噪聲的影響(法線即模型表面的紋路,隨光線條件變化發(fā)生變化,從而影響光照渲染效果):

最后是渲染網(wǎng)絡,用提取的參數(shù)來渲染出 3D 物體的效果。

具體來說,論文提出了一種將顏色預測、神經(jīng)網(wǎng)絡與參數(shù)模型結(jié)合的方法,用于計算顏色、預測最終法線等。

其中,NeROIC 的實現(xiàn)框架用 PyTorch 搭建,訓練時用了 4 張英偉達的 Tesla V100 顯卡。

訓練時,深度提取網(wǎng)絡需要跑 6~13 小時,渲染網(wǎng)絡則跑 2~4 小時。

用網(wǎng)絡圖片就能渲染 3D 模型

至于訓練 NeROIC 采用的數(shù)據(jù)集,則主要有三部分:

來源于互聯(lián)網(wǎng)(部分商品來源于網(wǎng)購平臺,即亞馬遜和淘寶)、NeRD、以及作者自己拍攝的(牛奶、電視、模型)圖像,平均每個物體收集 40 張照片。

那么,這樣的模型效果究竟如何呢?論文先是將 NeROIC 與 NeRF 進行了對比。從直觀效果來看,無論是物體渲染細節(jié)還是清晰度,NeROIC 都要比 NeRF 更好。

具體到峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)來看,深度提取網(wǎng)絡的“摳圖”技術(shù)都挺不錯,相較 NeRF 做得更好:

同時,論文也在更多場景中測試了渲染模型的效果,事實證明不會出現(xiàn)偽影等情況:

還能產(chǎn)生新角度,而且重新打光的效果也不錯,例如這是在室外場景:

室內(nèi)場景的打光又是另一種效果:

作者們還嘗試將照片數(shù)量減少到 20 張甚至 10 張,對 NeRF 和 NeROIC 進行訓練。

結(jié)果顯示,即使是數(shù)據(jù)集不足的情況下,NeROIC 的效果依舊比 NeRF 更好。

不過也有網(wǎng)友表示,作者沒給出玻璃或是半透明材質(zhì)的渲染效果:

對 AI 來說,重建透明或半透明物體確實也確實是比較復雜的任務,可以等代碼出來后嘗試一下效果。

據(jù)作者表示,代碼目前還在準備中。網(wǎng)友調(diào)侃:“可能中頂會、或者在演講之后就會放出”。

一作清華校友

論文一作匡正非,目前在南加州大學(University of Southern California)讀博,導師是計算機圖形學領(lǐng)域知名華人教授黎顥。

他本科畢業(yè)于清華計算機系,曾經(jīng)在胡事民教授的計圖團隊中擔任助理研究員。

這篇文章是他在 Snap 公司實習期間做出來的,其余作者全部來自 Snap 團隊。

以后或許只需要幾張網(wǎng)友“賣家秀”,就真能在家搞 VR 云試用了。

論文地址:

https://arxiv.org/abs/2201.02533

項目地址:

https://formyfamily.github.io/NeROIC/

參考鏈接:

[1]https://zhengfeikuang.com/

[2]https://ningding97.github.io/fewnerd/

[3]https://twitter.com/ben_ferns/status/1486705623186112520

[4]https://twitter.com/ak92501/status/1480353151748386824

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知