首頁(yè) > 科學(xué)探索>科技前沿

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

量子位 2023/2/1 12:55:05 責(zé)編：夢(mèng)澤

評(píng)論：

擴(kuò)散模型的圖像生成統(tǒng)治地位，終于要被 GAN 奪回了？

就在大伙兒喜迎新年之際，英偉達(dá)一群科學(xué)家悄悄給 StyleGAN 系列做了個(gè)升級(jí)，變出個(gè) PLUS 版的 StyleGAN-T，一下子在網(wǎng)上火了。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

無(wú)論是在星云爆炸中生成一只柯基：

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

還是基于虛幻引擎風(fēng)格渲染的森林：

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

都只需要接近 0.1 秒就能生成！

同等算力下，擴(kuò)散模型中的 Stable Diffusion 生成一張圖片需要 3 秒鐘，Imagen 甚至需要接近 10 秒。

不少網(wǎng)友的第一反應(yīng)是：

GAN，一個(gè)我太久沒(méi)聽(tīng)到的名字了。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

很快谷歌大腦研究科學(xué)家、DreamFusion 第一作者 Ben Poole 趕來(lái)圍觀，并將 StyleGAN-T 與擴(kuò)散模型做了個(gè)對(duì)比：

在低質(zhì)量圖像（64×64）生成方面，StyleGAN-T 要比擴(kuò)散模型做得更好。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

但他同時(shí)也表示，在 256×256 圖像生成上，還是擴(kuò)散模型的天下。

所以，新版 StyleGAN 生成質(zhì)量究竟如何，它又究竟是在哪些領(lǐng)域重新具備競(jìng)爭(zhēng)力的？

StyleGAN-T 長(zhǎng)啥樣？

相比擴(kuò)散模型和自回歸模型多次迭代生成樣本，GAN 最大的優(yōu)勢(shì)是速度。

因此，StyleGAN-T 這次也將重心放在了大規(guī)模文本圖像合成上，即如何在短時(shí)間內(nèi)由文本生成大量圖像。

StyleGAN-T 基于 StyleGAN-XL 改進(jìn)而來(lái)。

StyleGAN-XL 的參數(shù)量是 StyleGAN3 的 3 倍，基于 ImageNet 訓(xùn)練，能生成 1024×1024 高分辨率的圖像，并借鑒了 StyleGAN2 和 StyleGAN3 的部分架構(gòu)設(shè)計(jì)。

它的整體架構(gòu)如下：

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

具體到細(xì)節(jié)上，作者們對(duì)生成器、判別器和文本對(duì)齊權(quán)衡機(jī)制進(jìn)行了重新設(shè)計(jì)，用 FID 對(duì)樣本質(zhì)量進(jìn)行量化評(píng)估，并采用 CLIP 來(lái)對(duì)文本進(jìn)行對(duì)齊。

在生成器上，作者們放棄了 StyleGAN3 中能實(shí)現(xiàn)平移同變性（equivariance）的架構(gòu)，轉(zhuǎn)而采用了 StyleGAN2 的部分設(shè)計(jì)，包括輸入空間噪聲以及跳層連接等，以提升細(xì)節(jié)隨機(jī)變化的多樣性。

在判別器上，作者們也重新進(jìn)行了設(shè)計(jì)，采用自監(jiān)督學(xué)習(xí)對(duì) ViT-S 進(jìn)行訓(xùn)練。

隨后，作者采用了一種特殊的截?cái)啵╰runcation）方法來(lái)控制圖像生成的效果，同時(shí)權(quán)衡生成內(nèi)容的多樣性。

只需要控制參數(shù) ψ，就能在確保 CLIP 分?jǐn)?shù)（用于評(píng)估圖像生成效果）變動(dòng)不大的情況下，改善生成圖像的風(fēng)格多樣性。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

隨后，作者們用 64 個(gè)英偉達(dá) A100 訓(xùn)練了 4 周，最終得到了這版 StyleGAN-T。

那么它的生成效果如何呢？

超快生成低分辨率圖像

作者們對(duì)當(dāng)前最好的幾種 GAN、擴(kuò)散模型和自回歸模型進(jìn)行了評(píng)估。

在微軟的 MS COCO 數(shù)據(jù)集上，StyleGAN-T 實(shí)現(xiàn)了 64×64 分辨率下最高的 FID。

（其中，F(xiàn)ID 是計(jì)算真實(shí)圖像和生成圖像特征向量距離的評(píng)估用值，數(shù)值越低，表示生成的效果越接近真實(shí)圖像）

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

但在更高的 256×256 分辨率生成上，StyleGAN-T 還是沒(méi)有比過(guò)擴(kuò)散模型，只是在生成效果上比同樣用 GAN 的 LAFITE 要好上不少：

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

如果進(jìn)一步將生成時(shí)間和 FID 分別作為縱軸和橫軸，放到同一張圖上來(lái)對(duì)比，還能更直觀地對(duì)比生成質(zhì)量和速度。

可見(jiàn) StyleGAN-T 能保持在 10FPS 的速度下生成 256×256 分辨率圖像，同時(shí) FID 值逼近 LDM 和 GLIDE 等擴(kuò)散模型：

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

而在文本生成圖像功能上，作者們也從文本特征、風(fēng)格控制等方面對(duì)模型進(jìn)行了測(cè)試。

在增加或改變特定的形容詞后，生成的圖像確實(shí)符合描述：

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

即便是快速生成的圖像，也能迅速控制風(fēng)格，如“梵高風(fēng)格的畫”or“動(dòng)畫”等：

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

當(dāng)然，偶爾也有失敗案例，最典型的就是生成帶字母要求的圖像時(shí)，顯示不出正常字母來(lái)：

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

作者們正在努力整理代碼，表示不久之后就會(huì)開(kāi)源。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

作者介紹

作者們均來(lái)自圖賓根大學(xué)和英偉達(dá)。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

一作 Axel Sauer，圖賓根大學(xué)博士生，此前在卡爾斯魯厄理工學(xué)院（KIT）獲得本碩學(xué)位。目前感興趣的研究方向是深度生成模型、神經(jīng)網(wǎng)絡(luò)架構(gòu)和實(shí)證研究。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

二作 Tero Karras，英偉達(dá)杰出研究科學(xué)家，對(duì)英偉達(dá) RTX 技術(shù)有重要貢獻(xiàn)，也是 StyleGAN 系列的主要作者，主要研究方向是計(jì)算機(jī)圖形學(xué)和實(shí)時(shí)渲染。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

不過(guò)在這波 GAN 掀起的“文藝復(fù)興”浪潮下，也出現(xiàn)了“StyleGAN 時(shí)代迎來(lái)終結(jié)”的聲音。

有網(wǎng)友感慨：

在這之前，最新 StyleGAN 生成的圖像總能讓我們大吃一驚，然而現(xiàn)在它給我們的印象只剩下“快”了。

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

你認(rèn)為 GAN 還能撼動(dòng)擴(kuò)散模型的統(tǒng)治地位嗎？

論文地址：

https://arxiv.org/abs/2301.09515

項(xiàng)目地址：

https://github.com/autonomousvision/stylegan-t

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

StyleGAN-T 長(zhǎng)啥樣？

超快生成低分辨率圖像

作者介紹

相關(guān)文章

英偉達(dá)超快 StyleGAN 回歸，比 Stable Diffusion 快 30 多倍，網(wǎng)友：GAN 好像只剩下快了

StyleGAN-T 長(zhǎng)啥樣？