首頁(yè) > 科學(xué)探索>科技前沿

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

量子位 2021/12/21 16:28:02 責(zé)編：汪淼

評(píng)論：

2D 圖片變 3D，還能給出 3D 幾何數(shù)據(jù)？

英偉達(dá)和斯坦福大學(xué)聯(lián)合推出的這個(gè) GAN，真是刷新了 3D GAN 的新高度。

而且生成畫質(zhì)也更高，視角隨便搖，面部都沒(méi)有變形。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

與過(guò)去傳統(tǒng)的方法相比，它在速度上能快出 7 倍，而占用的內(nèi)存卻不到其十六分之一。

最厲害的莫過(guò)于還可給出 3D 幾何數(shù)據(jù)，像這些石像效果，就是根據(jù)提取的位置信息再渲染而得到的。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

甚至還能實(shí)時(shí)交互編輯。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

該框架一經(jīng)發(fā)布，就在推特上吸引了大量網(wǎng)友圍觀，點(diǎn)贊量高達(dá) 600+。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

怎么樣？是不是再次刷新你對(duì) 2D 升 3D 的想象了？

顯隱混合 + 雙重鑒別

事實(shí)上，只用一張單視角 2D 照片生成 3D 效果，此前已經(jīng)有許多模型框架可以實(shí)現(xiàn)。

但是它們要么需要計(jì)算量非常大，要么給出的近似值與真正的 3D 效果不一致。

這就導(dǎo)致生成的效果會(huì)出現(xiàn)畫質(zhì)低、變形等問(wèn)題。

為了解決以上的問(wèn)題，研究人員提出了一種顯隱混合神經(jīng)網(wǎng)絡(luò)架構(gòu) （hybrid explicit-implicit network architecture）。

這種方法可以繞過(guò)計(jì)算上的限制，還能不過(guò)分依賴對(duì)圖像的上采樣。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

從對(duì)比中可以看出，純隱式神經(jīng)網(wǎng)絡(luò)（如 NeRF）使用帶有位置編碼（PE）的完全連接層（FC）來(lái)表示場(chǎng)景，會(huì)導(dǎo)致確定位置的速度很慢。

純顯式神經(jīng)網(wǎng)絡(luò)或混合了小型隱式解碼器的框架，雖然速度更快，但是卻不能保證高分辨率的輸出效果。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

而英偉達(dá)和斯坦福大學(xué)提出的這個(gè)新方法 EG3D，就將顯式和隱式的表示優(yōu)點(diǎn)結(jié)合在了一起。

它主要包括一個(gè)以 StyleGAN2 為基礎(chǔ)的特征生成器和映射網(wǎng)絡(luò)，一個(gè)輕量級(jí)的特征解碼器，一個(gè)神經(jīng)渲染模塊、一個(gè)超分辨率模塊和一個(gè)可以雙重識(shí)別位置的 StyleGAN2 鑒別器。

其中，神經(jīng)網(wǎng)絡(luò)的主干為顯式表示，它能夠輸出 3D 坐標(biāo)；解碼器部分則為隱式表示。

與典型的多層感知機(jī)制相比，該方法在速度上可快出 7 倍，而占用的內(nèi)存卻不到其十六分之一。

與此同時(shí)，該方法還繼承了 StyleGAN2 的特性，比如效果良好的隱空間（latent space）。

比如，在數(shù)據(jù)集 FFHQ 中插值后，EG3D 的表現(xiàn)非常 nice：

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

該方法使用中等分辨率（128 x 128）進(jìn)行渲染，再用 2D 圖像空間卷積來(lái)提高最終輸出的分辨率和圖像質(zhì)量。

這種雙重鑒別，可以確保最終輸出圖像和渲染輸出的一致性，從而避免在不同視圖下由于卷積層不一致而產(chǎn)生的問(wèn)題。

兩圖中左半邊為最終輸出效果，右半邊為渲染輸出

▲ 兩圖中左半邊為最終輸出效果，右半邊為渲染輸出

而沒(méi)有使用雙重鑒別的方法，在嘴角這種細(xì)節(jié)上就會(huì)出現(xiàn)一些扭曲。

左圖未使用雙重鑒別；右圖為 EG3D 方法效果

▲ 左圖未使用雙重鑒別；右圖為 EG3D 方法效果

數(shù)據(jù)上，與此前方法對(duì)比，EG3D 方法在 256 分辨率、512 分辨率下的距離得分（FID）、識(shí)別一致性（ID）、深度準(zhǔn)確性和姿態(tài)準(zhǔn)確性上，表現(xiàn)都更好。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

團(tuán)隊(duì)介紹

此項(xiàng)研究由英偉達(dá)和斯坦福大學(xué)共同完成。

共同一作共有 4 位，分別是：Eric R. Chan、Connor Z. Lin、Matthew A. Chan、Koki Nagano。

其中，Eric R. Chan 是斯坦福大學(xué)的一位博士研究生，此前曾參與過(guò)一些 2D 圖像變 3D 的方法，比如 pi-GAN。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

Connor Z. Lin 是斯坦福大學(xué)的一位正在讀博二的研究生，本科和碩士均就讀于卡內(nèi)基梅隆大學(xué)，研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、深度學(xué)習(xí)等。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

Matthew A. Chan 則是一位研究助理，以上三人均來(lái)自斯坦福大學(xué)計(jì)算機(jī)成像實(shí)驗(yàn)室（Computational Imaging Lab）。

Koki Nagano 目前就職于英偉達(dá)，擔(dān)任高級(jí)研究員，研究方向?yàn)橛?jì)算機(jī)圖形學(xué)，本科畢業(yè)于東京大學(xué)。

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

論文地址：

https://arxiv.org/abs/2112.07945

參考鏈接：

https://matthew-a-chan.github.io/EG3D/

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

2D 圖片變 3D：最新 3D GAN 可生成三維幾何數(shù)據(jù)，模型速度提升 7 倍

顯隱混合 + 雙重鑒別

團(tuán)隊(duì)介紹

相關(guān)文章