設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

無(wú)需成千上萬(wàn)張目標(biāo)圖片訓(xùn)練:GAN 沒(méi)見(jiàn)過(guò)豬,卻能把狗變成豬

量子位 2021/8/8 13:01:29 責(zé)編:懶貓

不用成千上萬(wàn)張目標(biāo)圖片訓(xùn)練,就能讓 GAN 生成你想要的圖片,有可能嗎?

還真有可能!

來(lái)自特拉維夫大學(xué)和英偉達(dá)的研究人員成功地盲訓(xùn)出領(lǐng)域自適應(yīng)的圖像生成模型 ——StyleGAN-NADA。

也就是只需用簡(jiǎn)單地一個(gè)或幾個(gè)字描述,一張目標(biāo)領(lǐng)域的圖像也不需要,StyleGAN-NADA 就能在幾分鐘內(nèi)訓(xùn)練出你想要的圖片:

比如現(xiàn)在在幾張狗狗的基礎(chǔ)圖片上輸入“Sketch”,不到 1 分鐘,一張張草圖風(fēng)格狗的圖片就出來(lái)了。(視頻沒(méi)有聲音可放心“食用”)

再比如在人像上給出文字“Pixar”,就能生成皮克斯風(fēng)格的圖片:

各種人像風(fēng)格都可以:

甚至把狗變成豬也行:

問(wèn)題來(lái)了,AI 不可能生成它完全沒(méi)有見(jiàn)過(guò)的照片,但是又不給它參考照片,那怎么滿足要求呢?

基于 CLIP

答案就是借助 CLIP 的語(yǔ)義能力。

CLIP 是 OpenAI 提出的根據(jù)文字生成圖片的 DALL 模型的圖像分類模塊,可以根據(jù)文字描述給圖片的匹配程度打分。

今年年初,就有人用 CLIP 做出了一個(gè)用“大白話”檢索圖片的功能,效果還挺驚艷的。

▲ 輸入“The word love written on the wall”的搜索結(jié)果

總的來(lái)說(shuō),StyleGAN-NADA 的訓(xùn)練機(jī)制包含兩個(gè)緊密相連的生成器 Gfrozen 和 Gtrain,它倆都使用了 StyleGAN2 的體系結(jié)構(gòu),并共享同一個(gè)映射網(wǎng)絡(luò),因此也具有同一個(gè)隱空間(latent space)和隱碼(latent code),所以它們?cè)谧铋_(kāi)始生成的圖像是一樣的。

首先使用在單個(gè)源域(例如人臉、狗、教堂或汽車數(shù)據(jù)集)上預(yù)訓(xùn)練的模型權(quán)重初始化這兩個(gè)生成器。

由于最終目標(biāo)是生成一個(gè)風(fēng)格不一樣的圖像,那就要更改其中一個(gè)成對(duì)生成器的域,同時(shí)保持另一個(gè)作為參考域。

具體的話就是 Gfrozen 的權(quán)重保持不變,而 Gtrain 的權(quán)重通過(guò)優(yōu)化和迭代層凍結(jié)(iterative layer-freezing)方案進(jìn)行修改。

而 Gtrain 的域在通過(guò)用戶提供的文本方向進(jìn)行更改(shift)的同時(shí),會(huì)保持共享隱空間(latent space)。

具體怎么“更改”呢?

這就用到了一組基于 CLIP 的損失(loss)和“分層凍結(jié)”(layer-freezing)方案。

該方案可以自適應(yīng)地確定在每次迭代訓(xùn)練中最相關(guān)的子層、并“凍結(jié)”其余層來(lái)提高訓(xùn)練穩(wěn)定性保證效果。下面就詳細(xì)介紹一下這兩個(gè)方法。

基于 CLIP 的損失(loss)

StyleGAN-NADA 依靠預(yù)先訓(xùn)練的 CLIP 作目標(biāo)域的唯一監(jiān)督來(lái)源。為了有效地從 CLIP 中提取“知識(shí)”,一共用了三種損失算法:

(1)負(fù)責(zé)確定在每次迭代中訓(xùn)練哪個(gè)子集層的全局目標(biāo)損失 (Global CLIP loss);

(2)旨在保持多樣性的局部定向損失 (Directional CLIP loss);

(3)以及防止圖像生成不必要的語(yǔ)義偽影的嵌入范數(shù)損失 (Embedding-norm Loss)。

▲ 局部定向損失要求源/目標(biāo)圖像/文字的 CLIP-space 方向一致

“分層凍結(jié)”(layer-freezing)

此機(jī)制分為兩階段:

(1)選層階段,保持所有網(wǎng)絡(luò)權(quán)重不變并對(duì)一組隱碼進(jìn)行優(yōu)化,然后選擇變化最顯著的一層(優(yōu)化使用目標(biāo)域文本描述驅(qū)動(dòng)的全局 CLIP 損失進(jìn)行);

(2)優(yōu)化階段,“解凍”選定層的權(quán)重,然后使用定向 CLIP 損失進(jìn)行優(yōu)化和更改。

大多數(shù)訓(xùn)練只需幾分鐘就可完成

首先,該模型可以實(shí)現(xiàn)范圍廣泛的域外自適應(yīng),從紋理變化到大的形狀修改,從現(xiàn)實(shí)到魔幻風(fēng)格…… 甚至包括一些收集高質(zhì)量數(shù)據(jù)成本很高的目標(biāo)域。

其次,所有的這些圖片的生成都只需給一個(gè)簡(jiǎn)單的文字描述,除了極端情況,大多數(shù)訓(xùn)練只需幾分鐘就能完成。

對(duì)于基于紋理的修改目標(biāo),該模型通常需要 300 次迭代,batch size 為 2,在一個(gè) NVIDIA V100 GPU 上訓(xùn)練大約 3 分鐘。在某些情況下(比如從“照片”到“草圖”),訓(xùn)練只需不到一分鐘的時(shí)間。

然后,所有的實(shí)驗(yàn)用的就是這個(gè)完整當(dāng)然模型,沒(méi)有添加任何 latent mapper。研究人員發(fā)現(xiàn),對(duì)于純粹是基于樣式的圖像生成,模型需要跨所有層進(jìn)行訓(xùn)練,比如下面這種:

而對(duì)于較小的形狀修改,則只需訓(xùn)練大約 2/3 數(shù)量的層數(shù)就能折中保持訓(xùn)練時(shí)間和效果:

最后,將該模型與 StyleCLIP(結(jié)合了 StyleGAN 和 CLIP 的域內(nèi)圖像編輯模型)、以及只用了 Gfrozen 生成器的模型對(duì)比發(fā)現(xiàn),只有 StyleGAN-NADA 可以實(shí)現(xiàn)目標(biāo)。

再將零樣本的 StyleGAN-NADA 與一些少樣本的圖像生成模型對(duì)比發(fā)現(xiàn),別的都要么過(guò)擬合要么崩潰(MineGAN 更是只記住了訓(xùn)練集圖像),只有 StyleGAN-NADA 在保持多樣性的情況下成功生成(但它也有偽影出現(xiàn))。

下面是消融實(shí)驗(yàn):

▲ 通過(guò)訓(xùn)練 latent mapper 可以進(jìn)一步提高生成質(zhì)量

ps.在論文的最后,研究人員表示:

由于這項(xiàng)技術(shù),也許在不久的將來(lái),這類圖像生成的工作將不再受到訓(xùn)練數(shù)據(jù)的約束,而只取決于我們的創(chuàng)造力。

論文地址:

https://arxiv.org/abs/2108.00946

GitHub 地址:

https://github.com/rinongal/StyleGAN-nada

參考鏈接:

https://stylegan-nada.github.io/

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:GAN圖片

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知