只需兩張照片就能 2D 變 3D,華人學(xué)者開(kāi)發(fā)出新 AI 應(yīng)用

量子位 2022/5/16 13:36:38 責(zé)編:問(wèn)舟

2 張廢片啪地一合!錯(cuò)過(guò)的精彩瞬間立刻重現(xiàn),還能從 2D 升到 3D 效果???,小男孩可愛(ài)的笑容馬上躍然浮現(xiàn):

吹滅生日蛋糕蠟燭的瞬間也被還原了出來(lái):

咧嘴笑起來(lái)的過(guò)程看著也太治愈了吧~

咱就是說(shuō),這回相機(jī)里熊孩子 / 毛孩子的廢片終于有救了!而且完全看不出是后期合成的效果,仿佛是原生拍攝的一般。

這就是谷歌、康奈爾大學(xué)、華盛頓大學(xué)最近聯(lián)合推出的成果,能只用 2 張相近的照片還原出 3D 瞬間,目前已被 CVPR 2022 收錄。

論文作者一作、二作均為華人,一作小姐姐本科畢業(yè)于浙江大學(xué)。

用 2 張照片正反向預(yù)測(cè)中間場(chǎng)景

這種方法適用于兩張非常相似的照片,比如連拍時(shí)產(chǎn)生的一系列照片。

方法的關(guān)鍵在于將 2 張圖片轉(zhuǎn)換為一對(duì)基于特征的分層深度圖像 (LDI),并通過(guò)場(chǎng)景流進(jìn)行增強(qiáng)。整個(gè)過(guò)程可以把兩張照片分別看做是“起點(diǎn)”和“終點(diǎn)”,然后在這二者之間逐步預(yù)測(cè)出每一刻的變化。

具體來(lái)看,過(guò)程如下:

首先,將兩張照片用單應(yīng)矩陣(homegraphy)對(duì)齊,分別預(yù)測(cè)兩張照片的稠密深度圖。然后將每個(gè) RGBD 圖像轉(zhuǎn)換為彩色的 LDI,通過(guò)深度感知修復(fù)背景中被遮擋的部分。

其中,RGB 圖像即為普通 RGB 圖像 + 深度圖像。

之后用二維特征提取器修復(fù) LDI 的每個(gè)顏色層,以獲取特征層,從而生成兩份特征圖層。下一步就到了模擬場(chǎng)景運(yùn)動(dòng)部分。通過(guò)預(yù)測(cè)兩個(gè)輸入圖像之間的深度和光流,就能計(jì)算出 LDI 中每個(gè)像素的場(chǎng)景流。

而如果想要兩張圖之間渲染出一個(gè)新的視圖、并提升到 3D,在此需要將兩組帶特征值的 LDI 提升到一對(duì) 3D 點(diǎn)云中,還要沿著場(chǎng)景流雙向移動(dòng)到中間的時(shí)間點(diǎn)。然后再將三維的特征點(diǎn)投影展開(kāi),形成正向、反向的二維特征圖及對(duì)應(yīng)深度圖。

最后將這些映射與時(shí)間線中對(duì)應(yīng)時(shí)間點(diǎn)的權(quán)重線性混合,將結(jié)果傳給圖像合成網(wǎng)絡(luò),就能得到最后的效果了。

實(shí)驗(yàn)結(jié)果

從數(shù)據(jù)方面來(lái)看,該方法在所有誤差指標(biāo)上,均高于基線水平。

在 UCSD 數(shù)據(jù)集上,這一方法可以保留畫(huà)面中的更多細(xì)節(jié),如(d)所示。

在 NVIDIA 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)表明,該方法在提高渲染質(zhì)量上表現(xiàn)也很 nice。

不過(guò)也存在一些問(wèn)題:當(dāng)兩張圖像之間的改變比較大時(shí),會(huì)出現(xiàn)物體錯(cuò)位的現(xiàn)象。

比如下圖中酒瓶的瓶嘴移動(dòng)了,不該發(fā)生變化的酒杯也搖晃了起來(lái)。

還有照片如果沒(méi)有拍全的地方,在合成的時(shí)候難免會(huì)出現(xiàn)“截肢”的情況,比如下圖中喂考拉的手。

團(tuán)隊(duì)介紹

該研究的一作為 Qianqian Wang,現(xiàn)在在康奈爾大學(xué)讀博四。

她本科畢業(yè)于浙江大學(xué),師從周曉巍。

研究興趣為計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)。

二作是 Zhengqi Li,博士畢業(yè)于康納爾大學(xué),本科畢業(yè)于明尼蘇達(dá)大學(xué),目前在 Google Research。

曾獲提名 CVPR 2019 最佳論文,谷歌 2020 博士獎(jiǎng)研金,2020 年 Adobe Research 獎(jiǎng)學(xué)金,入圍 Baidu 2021 年 AI 華人新星百?gòu)?qiáng)榜單。

參與此項(xiàng)研究的還有華盛頓大學(xué)教授 Brian Curless。

他還提出過(guò)另一種方法能夠?qū)崿F(xiàn)類(lèi)似效果,同樣只用到了 2 張照片,通過(guò)新型幀插值模型生成連貫的視頻。

論文地址:

https://3d-moments.github.io/

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知