設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

2D 圖片變 3D:最新 3D GAN 可生成三維幾何數(shù)據(jù),模型速度提升 7 倍

量子位 2021/12/21 16:28:02 責(zé)編:汪淼

2D 圖片變 3D,還能給出 3D 幾何數(shù)據(jù)?

英偉達(dá)和斯坦福大學(xué)聯(lián)合推出的這個(gè) GAN,真是刷新了 3D GAN 的新高度。

而且生成畫質(zhì)也更高,視角隨便搖,面部都沒(méi)有變形。

與過(guò)去傳統(tǒng)的方法相比,它在速度上能快出 7 倍,而占用的內(nèi)存卻不到其十六分之一

最厲害的莫過(guò)于還可給出 3D 幾何數(shù)據(jù),像這些石像效果,就是根據(jù)提取的位置信息再渲染而得到的。

甚至還能實(shí)時(shí)交互編輯。

該框架一經(jīng)發(fā)布,就在推特上吸引了大量網(wǎng)友圍觀,點(diǎn)贊量高達(dá) 600+。

怎么樣?是不是再次刷新你對(duì) 2D 升 3D 的想象了?

顯隱混合 + 雙重鑒別

事實(shí)上,只用一張單視角 2D 照片生成 3D 效果,此前已經(jīng)有許多模型框架可以實(shí)現(xiàn)。

但是它們要么需要計(jì)算量非常大,要么給出的近似值與真正的 3D 效果不一致。

這就導(dǎo)致生成的效果會(huì)出現(xiàn)畫質(zhì)低、變形等問(wèn)題。

為了解決以上的問(wèn)題,研究人員提出了一種顯隱混合神經(jīng)網(wǎng)絡(luò)架構(gòu) (hybrid explicit-implicit network architecture)。

這種方法可以繞過(guò)計(jì)算上的限制,還能不過(guò)分依賴對(duì)圖像的上采樣。

從對(duì)比中可以看出,純隱式神經(jīng)網(wǎng)絡(luò)(如 NeRF)使用帶有位置編碼(PE)的完全連接層(FC)來(lái)表示場(chǎng)景,會(huì)導(dǎo)致確定位置的速度很慢。

純顯式神經(jīng)網(wǎng)絡(luò)或混合了小型隱式解碼器的框架,雖然速度更快,但是卻不能保證高分辨率的輸出效果。

而英偉達(dá)和斯坦福大學(xué)提出的這個(gè)新方法 EG3D,將顯式和隱式的表示優(yōu)點(diǎn)結(jié)合在了一起。

它主要包括一個(gè)以 StyleGAN2 為基礎(chǔ)的特征生成器和映射網(wǎng)絡(luò),一個(gè)輕量級(jí)的特征解碼器,一個(gè)神經(jīng)渲染模塊、一個(gè)超分辨率模塊和一個(gè)可以雙重識(shí)別位置的 StyleGAN2 鑒別器。

其中,神經(jīng)網(wǎng)絡(luò)的主干為顯式表示,它能夠輸出 3D 坐標(biāo);解碼器部分則為隱式表示。

與典型的多層感知機(jī)制相比,該方法在速度上可快出 7 倍,而占用的內(nèi)存卻不到其十六分之一。

與此同時(shí),該方法還繼承了 StyleGAN2 的特性,比如效果良好的隱空間(latent space)。

比如,在數(shù)據(jù)集 FFHQ 中插值后,EG3D 的表現(xiàn)非常 nice:

該方法使用中等分辨率(128 x 128)進(jìn)行渲染,再用 2D 圖像空間卷積來(lái)提高最終輸出的分辨率和圖像質(zhì)量。

這種雙重鑒別,可以確保最終輸出圖像和渲染輸出的一致性,從而避免在不同視圖下由于卷積層不一致而產(chǎn)生的問(wèn)題。

兩圖中左半邊為最終輸出效果,右半邊為渲染輸出

▲ 兩圖中左半邊為最終輸出效果,右半邊為渲染輸出

而沒(méi)有使用雙重鑒別的方法,在嘴角這種細(xì)節(jié)上就會(huì)出現(xiàn)一些扭曲。

左圖未使用雙重鑒別;右圖為 EG3D 方法效果

▲ 左圖未使用雙重鑒別;右圖為 EG3D 方法效果

數(shù)據(jù)上,與此前方法對(duì)比,EG3D 方法在 256 分辨率、512 分辨率下的距離得分(FID)、識(shí)別一致性(ID)、深度準(zhǔn)確性和姿態(tài)準(zhǔn)確性上,表現(xiàn)都更好。

團(tuán)隊(duì)介紹

此項(xiàng)研究由英偉達(dá)和斯坦福大學(xué)共同完成。

共同一作共有 4 位,分別是:Eric R. Chan、Connor Z. Lin、Matthew A. Chan、Koki Nagano。

其中,Eric R. Chan 是斯坦福大學(xué)的一位博士研究生,此前曾參與過(guò)一些 2D 圖像變 3D 的方法,比如 pi-GAN。

Connor Z. Lin 是斯坦福大學(xué)的一位正在讀博二的研究生,本科和碩士均就讀于卡內(nèi)基梅隆大學(xué),研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、深度學(xué)習(xí)等。

Matthew A. Chan 則是一位研究助理,以上三人均來(lái)自斯坦福大學(xué)計(jì)算機(jī)成像實(shí)驗(yàn)室(Computational Imaging Lab)。

Koki Nagano 目前就職于英偉達(dá),擔(dān)任高級(jí)研究員,研究方向?yàn)橛?jì)算機(jī)圖形學(xué),本科畢業(yè)于東京大學(xué)。

論文地址:

https://arxiv.org/abs/2112.07945

參考鏈接:

https://matthew-a-chan.github.io/EG3D/

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:GAN,3D 模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知