設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

深圳大學(xué)和特拉維夫大學(xué)最新成果,AI 編輯人臉終于告別 P 一處而毀全圖

量子位 2022/2/16 13:01:43 責(zé)編:長河

“Attention is all you need!”這句名言又在新的領(lǐng)域得到了印證。來自深圳大學(xué)和特拉維夫大學(xué)的最新成果,通過在 GAN 中引入注意力機(jī)制,成功解決了編輯人臉時會產(chǎn)生的一些“手抖”問題

比如改變?nèi)说陌l(fā)型時把背景弄亂;

比如改變?nèi)说陌l(fā)型時把背景弄亂

加胡子時影響到頭發(fā)、甚至整張臉都不太像是同一個人了:

加胡子時影響到頭發(fā)、甚至整張臉都不太像是同一個人了

這個有了注意力機(jī)制的新模型,修改圖像時清清爽爽,完全不會對目標(biāo)區(qū)域之外產(chǎn)生任何影響。

不會對目標(biāo)區(qū)域之外產(chǎn)生影響

具體怎么實現(xiàn)?

引入注意力圖

此模型名叫 FEAT (Face Editing with Attention),它是在 StyleGAN 生成器的基礎(chǔ)上,引入注意力機(jī)制

具體來說就是利用 StyleGAN2 的潛空間進(jìn)行人臉編輯。其映射器(Mapper)建立在之前的方法之上,通過學(xué)習(xí)潛空間的偏置(offset)來修改圖像。

為了只對目標(biāo)區(qū)域進(jìn)行修改,F(xiàn)EAT 在此引入了注意圖 (attention map),將源潛碼獲得的特征與移位潛碼的特征進(jìn)行融合。

FEAT 引入了注意圖 (attention map)

為了指導(dǎo)編輯,模型還引入了 CLIP,它可以用文本學(xué)習(xí)偏移量并生成注意圖。FEAT 的具體流程如下:

FEAT 的具體流程

首先,給定一張具有 n 個特征的圖像。如上圖所示,淺藍(lán)色代表特征,黃色部分標(biāo)記通道數(shù)量。然后在文字提示的指導(dǎo)下,為所有能預(yù)測相應(yīng)偏置(offset)的樣式代碼(style code)生成映射器。

這個映射器通過潛碼加偏置(wj+ Δj)修改,生成映射圖像。再接著,用注意力模塊生成的 attention map 將原始圖像和映射圖像的第 i 層特征進(jìn)行融合,生成我們要的編輯效果。

其中,注意力模塊的架構(gòu)如下:左側(cè)是用于特征提取的 StyleGAN2 生成器,右為用于制作注意圖的 Attention Network。

注意力模塊的架構(gòu)

不修改目標(biāo)區(qū)域之外的圖像

在實驗對比環(huán)節(jié)中,研究人員首先將 FEAT 與最近提出的兩種基于文本的操作模型進(jìn)行比較:TediGAN 和 StyleCLIP。其中 TediGAN 將圖像和文本都編碼到 StyleGAN 潛空間中,StyleCLIP 則實現(xiàn)了三種將 CLIP 與 StyleGAN 相結(jié)合的技術(shù)。

實現(xiàn)了三種將 CLIP 與 StyleGAN 相結(jié)合的技術(shù)

可以看到,F(xiàn)EAT 實現(xiàn)了對面部的精確控制,沒有對目標(biāo)區(qū)域以外的地方產(chǎn)生任何影響。而 TediGAN 不僅沒有對發(fā)型改變成功,還把膚色變暗了(第一行最右)。在第二組對表情的改變中,又把性別給改了(第二行最右)。

TediGAN

StyleCLIP 整體效果比 TediGAN 好很多,但代價是變得凌亂的背景 (上兩張圖中的第三列,每張效果的背景都受到了影響)。接著將 FEAT 與 InterFaceGAN 和 StyleFlow 進(jìn)行比較。

其中 InterfaceGAN 在 GAN 潛空間中執(zhí)行線性操作,而 StyleFlow 則在潛空間中提取非線性編輯路徑。結(jié)果如下:

編輯結(jié)果

這是一組加胡子的編輯,可以看到 InterfaceGAN 和 StyleFlow 在此操作之余對頭發(fā)和眉毛做了細(xì)微改動。除此之外,這兩種方法還需要標(biāo)記數(shù)據(jù)進(jìn)行監(jiān)督,不能像 FEAT 一樣進(jìn)行零樣本操作。

在定量實驗中,F(xiàn)EAT 也展現(xiàn)出了它的優(yōu)越性。在五個屬性的編輯結(jié)果中,F(xiàn)EAT 比 TediGAN 和 StyleCLIP 在視覺質(zhì)量(FID 得分)和特征保留(CS 和 ED 得分)方面表現(xiàn)更佳。

多方面表現(xiàn)

關(guān)于作者

一作侯賢旭來自深圳大學(xué)。

一作侯賢旭

他本科和碩士畢業(yè)于中國礦業(yè)大學(xué)地理學(xué)和地質(zhì)學(xué)專業(yè),博士畢業(yè)于諾丁漢大學(xué)計算機(jī)科學(xué)專業(yè),主要研究方向為計算機(jī)視覺和深度學(xué)習(xí)。

通訊作者為沈琳琳,深圳大學(xué)模式識別與智能系統(tǒng)專業(yè)碩士生導(dǎo)師,目前研究方向為人臉 / 指紋 / 掌紋等生物特征識別、醫(yī)學(xué)圖象處理、模式識別系統(tǒng)。他本碩畢業(yè)于上海交大應(yīng)用電子專業(yè),博士也畢業(yè)于諾丁漢大學(xué)。其谷歌學(xué)術(shù)引用次數(shù)已達(dá) 7936 次。

論文地址:

https://arxiv.org/abs/2202.02713

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知