<label id="wrm9d"><tfoot id="wrm9d"><track id="wrm9d"></track></tfoot></label>

<source id="wrm9d"><dfn id="wrm9d"></dfn></source>

<source id="wrm9d"><del id="wrm9d"></del></source>

首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 智能時代>人工智能

一張照片就能生成 3D 模型，GAN 和自動編碼器碰撞出奇跡

量子位 2022/3/2 13:39:07 責(zé)編：長河

評論：

2D 圖片“腦補(bǔ)”3D 模型，這次真的只用一張圖就行了 —— 只需要給 AI 隨便喂一張照片，它就能從不一樣的角度給你生成“新視圖”：

用 2D 圖片生成 3D 模型

不僅能搞定 360° 的椅子和汽車，連人臉也玩出了新花樣，從“死亡自拍”角度到仰視圖都能生成：

用人臉照片生成 3D 模型

更有意思的是，這只名叫 Pix2NeRF 的 AI，連訓(xùn)練用的數(shù)據(jù)集都有點“與眾不同”，可以在沒有 3D 數(shù)據(jù)、多視角或相機(jī)參數(shù)的情況下學(xué)會生成新視角?？梢哉f是又把 NeRF 系列的 AI 們卷上了一個新高度。

用 GAN + 自動編碼器學(xué)會“腦補(bǔ)”

在此之前，NeRF 能通過多視圖訓(xùn)練 AI 模型，來讓它學(xué)會生成新視角下的 3D 物體照片。然而，這也導(dǎo)致一系列采用 NeRF 方法的模型，包括 PixelNeRF 和 GRF，都需要利用多視圖數(shù)據(jù)集才能訓(xùn)練出比較好的 2D 生成 3D 模型效果。

而多視圖數(shù)據(jù)集往往有限，訓(xùn)練時間也比較長。因此，作者們想出了一個新方法，也就是用自動編碼器來提取物體姿態(tài)和形狀特征，再用 GAN 直接生成全新的視角圖片。

Pix2NeRF 包含三種類型的網(wǎng)絡(luò)架構(gòu)，即生成網(wǎng)絡(luò) G，判別網(wǎng)絡(luò) D 和編碼器 E。其中，生成網(wǎng)絡(luò) G 和判別網(wǎng)絡(luò) D 組成生成對抗網(wǎng)絡(luò) GAN，而編碼器 E 和生成網(wǎng)絡(luò) G 用于構(gòu)成自動編碼器：

網(wǎng)絡(luò)架構(gòu)

首先，自動編碼器可以通過無監(jiān)督學(xué)習(xí)，來獲取輸入圖像的隱藏特征，包括物體姿態(tài)和物體形狀，并利用學(xué)習(xí)到的特征重建出原始的數(shù)據(jù)；然后，再利用 GAN 來通過姿態(tài)和形狀數(shù)據(jù)，重構(gòu)出與原來的物體形狀不同的新視圖。

這里研究人員采用了一種叫做 π-GAN 的結(jié)構(gòu)，生成 3D 視角照片的效果相比其他類型的 GAN 更好（作者們還對比了采用 HoloGAN 的一篇論文）：

π-GAN

那么，這樣“混搭”出來的 AI 模型，效果究竟如何？

用糊圖也能生成新視角

作者們先是進(jìn)行了一系列的消融實驗，以驗證不同的訓(xùn)練方法和模型架構(gòu)，是否真能提升 Pix2NeRF 的效果。例如，針對模型去掉 GAN 逆映射、自動編碼器，或不采用 warmup 針對學(xué)習(xí)率進(jìn)行預(yù)熱等，再嘗試生成新視角的人臉：

其中，GAN 逆映射（inversion）的目的是將給定的圖像反轉(zhuǎn)回預(yù)先訓(xùn)練的 GAN 模型的潛在空間中，以便生成器從反轉(zhuǎn)代碼中重建圖像。

實驗顯示，除了完整模型（full model）以外，去掉各種方法的模型，生成人臉的效果都不夠好。隨后，作者們又將生成照片的效果與其他生成新視圖的 AI 模型進(jìn)行了對比。

結(jié)果表明，雖然 Pix2NeRF 在 ShapeNet-SRN 的生成效果上沒有 PixelNeRF 好，但效果也比較接近：

數(shù)據(jù)

而在 CelebA 和 CARLA 數(shù)據(jù)集上，Pix2NeRF 基本都取得了最好的效果。

數(shù)據(jù)集

而且模型還自帶一些“美顏”功能，即使是糊圖送進(jìn)去，也能給 GAN 出更絲滑的輪廓：

糊圖生成輪廓

整體而言，除了人臉能生成不同角度的新視圖以外，物體還能腦補(bǔ)出 360° 下不同姿態(tài)的效果：

360° 下不同姿態(tài)

看來，AI 也和人類一樣，學(xué)會“腦補(bǔ)”沒見過的物體形狀了。

作者介紹

這次論文的作者均來自蘇黎世聯(lián)邦理工學(xué)院（ETH）。

論文一作 Shengqu Cai，ETH 碩士研究生，本科畢業(yè)于倫敦國王學(xué)院，研究方向是神經(jīng)渲染、生成模型和無監(jiān)督學(xué)習(xí)等，高中畢業(yè)于遼寧省實驗中學(xué)。

Anton Obukhov，ETH 博士生，此前曾在英偉達(dá)等公司工作，研究方向是計算機(jī)視覺和機(jī)器學(xué)習(xí)。

Dengxin Dai，馬普所高級研究員和 ETH（外部）講師，研究方向是自動駕駛、傳感器融合和有限監(jiān)督下的目標(biāo)檢測。

Luc Van Gool，ETH 計算機(jī)視覺教授，谷歌學(xué)術(shù)上的引用量達(dá)到 15w+，研究方向主要是 2D 和 3D 物體識別、機(jī)器人視覺和光流等。

目前這項研究的代碼還在準(zhǔn)備中。

代碼還在準(zhǔn)備中

感興趣的小伙伴可以蹲一波了~

論文地址：

https://arxiv.org/abs/2202.13162

項目地址：

https://github.com/sxyu/pixel-nerf

參考鏈接：

[1]https://arxiv.org/pdf/2102.03285.pdf

[2]https://arxiv.org/pdf/2012.02190.pdf

[3]https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning

[4]https://www.linkedin.com/in/shengqu-cai-818230185/

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：GAN，AI，人工智能

軟媒旗下網(wǎng)站： IT之家最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機(jī)APP應(yīng)用魔方最會買要知