2D 圖片變 3D,還能給出 3D 幾何數(shù)據(jù)?
英偉達(dá)和斯坦福大學(xué)聯(lián)合推出的這個(gè) GAN,真是刷新了 3D GAN 的新高度。
而且生成畫質(zhì)也更高,視角隨便搖,面部都沒(méi)有變形。
與過(guò)去傳統(tǒng)的方法相比,它在速度上能快出 7 倍,而占用的內(nèi)存卻不到其十六分之一。
最厲害的莫過(guò)于還可給出 3D 幾何數(shù)據(jù),像這些石像效果,就是根據(jù)提取的位置信息再渲染而得到的。
甚至還能實(shí)時(shí)交互編輯。
該框架一經(jīng)發(fā)布,就在推特上吸引了大量網(wǎng)友圍觀,點(diǎn)贊量高達(dá) 600+。
怎么樣?是不是再次刷新你對(duì) 2D 升 3D 的想象了?
顯隱混合 + 雙重鑒別
事實(shí)上,只用一張單視角 2D 照片生成 3D 效果,此前已經(jīng)有許多模型框架可以實(shí)現(xiàn)。
但是它們要么需要計(jì)算量非常大,要么給出的近似值與真正的 3D 效果不一致。
這就導(dǎo)致生成的效果會(huì)出現(xiàn)畫質(zhì)低、變形等問(wèn)題。
為了解決以上的問(wèn)題,研究人員提出了一種顯隱混合神經(jīng)網(wǎng)絡(luò)架構(gòu) (hybrid explicit-implicit network architecture)。
這種方法可以繞過(guò)計(jì)算上的限制,還能不過(guò)分依賴對(duì)圖像的上采樣。
從對(duì)比中可以看出,純隱式神經(jīng)網(wǎng)絡(luò)(如 NeRF)使用帶有位置編碼(PE)的完全連接層(FC)來(lái)表示場(chǎng)景,會(huì)導(dǎo)致確定位置的速度很慢。
純顯式神經(jīng)網(wǎng)絡(luò)或混合了小型隱式解碼器的框架,雖然速度更快,但是卻不能保證高分辨率的輸出效果。
而英偉達(dá)和斯坦福大學(xué)提出的這個(gè)新方法 EG3D,就將顯式和隱式的表示優(yōu)點(diǎn)結(jié)合在了一起。
它主要包括一個(gè)以 StyleGAN2 為基礎(chǔ)的特征生成器和映射網(wǎng)絡(luò),一個(gè)輕量級(jí)的特征解碼器,一個(gè)神經(jīng)渲染模塊、一個(gè)超分辨率模塊和一個(gè)可以雙重識(shí)別位置的 StyleGAN2 鑒別器。
其中,神經(jīng)網(wǎng)絡(luò)的主干為顯式表示,它能夠輸出 3D 坐標(biāo);解碼器部分則為隱式表示。
與典型的多層感知機(jī)制相比,該方法在速度上可快出 7 倍,而占用的內(nèi)存卻不到其十六分之一。
與此同時(shí),該方法還繼承了 StyleGAN2 的特性,比如效果良好的隱空間(latent space)。
比如,在數(shù)據(jù)集 FFHQ 中插值后,EG3D 的表現(xiàn)非常 nice:
該方法使用中等分辨率(128 x 128)進(jìn)行渲染,再用 2D 圖像空間卷積來(lái)提高最終輸出的分辨率和圖像質(zhì)量。
這種雙重鑒別,可以確保最終輸出圖像和渲染輸出的一致性,從而避免在不同視圖下由于卷積層不一致而產(chǎn)生的問(wèn)題。
▲ 兩圖中左半邊為最終輸出效果,右半邊為渲染輸出
而沒(méi)有使用雙重鑒別的方法,在嘴角這種細(xì)節(jié)上就會(huì)出現(xiàn)一些扭曲。
▲ 左圖未使用雙重鑒別;右圖為 EG3D 方法效果
數(shù)據(jù)上,與此前方法對(duì)比,EG3D 方法在 256 分辨率、512 分辨率下的距離得分(FID)、識(shí)別一致性(ID)、深度準(zhǔn)確性和姿態(tài)準(zhǔn)確性上,表現(xiàn)都更好。
團(tuán)隊(duì)介紹
此項(xiàng)研究由英偉達(dá)和斯坦福大學(xué)共同完成。
共同一作共有 4 位,分別是:Eric R. Chan、Connor Z. Lin、Matthew A. Chan、Koki Nagano。
其中,Eric R. Chan 是斯坦福大學(xué)的一位博士研究生,此前曾參與過(guò)一些 2D 圖像變 3D 的方法,比如 pi-GAN。
Connor Z. Lin 是斯坦福大學(xué)的一位正在讀博二的研究生,本科和碩士均就讀于卡內(nèi)基梅隆大學(xué),研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、深度學(xué)習(xí)等。
Matthew A. Chan 則是一位研究助理,以上三人均來(lái)自斯坦福大學(xué)計(jì)算機(jī)成像實(shí)驗(yàn)室(Computational Imaging Lab)。
Koki Nagano 目前就職于英偉達(dá),擔(dān)任高級(jí)研究員,研究方向?yàn)橛?jì)算機(jī)圖形學(xué),本科畢業(yè)于東京大學(xué)。
論文地址:
https://arxiv.org/abs/2112.07945
參考鏈接:
https://matthew-a-chan.github.io/EG3D/
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。