首頁 > IT資訊>業(yè)界

“眾所周知，視頻不能 P”，GAN 模型：是嗎？P 視頻來了

量子位 2022/1/25 17:37:52 責(zé)編：瀟公子

評論：

見過用 GAN 來 P 圖，見過用 GAN P 視頻嗎？瞧，原本一直在面無表情地講話的人，全程露出了微笑；原本得 4、50 歲的人，直接變 20 幾歲了：

另一邊，正在微笑唱歌的“赫敏”一下子憤怒起來，還能換上一張幾歲小孩的臉：

“眾所周知，視頻不能 P”，GAN 模型：是嗎？P 視頻來了

美國前總統(tǒng)也如此，4 種版本的面部狀態(tài)信手拈來，甚至連性別都給 P 成女的了：

“眾所周知，視頻不能 P”，GAN 模型：是嗎？P 視頻來了

不管人臉表情和狀態(tài)如何變化，這些視頻都沒有給人任何違和感，全程如此的絲滑～哦對，除了真人，動漫視頻里的臉也可以 P：

“眾所周知，視頻不能 P”，GAN 模型：是嗎？P 視頻來了

有點厲害了。

基于 GAN 的視頻面部編輯

這個模型出自以色列特拉維夫大學(xué)。

“眾所周知，視頻不能 P”，GAN 模型：是嗎？P 視頻來了

眾所周知，GAN 在其潛空間內(nèi)編碼豐富語義的能力，已經(jīng)被廣泛用于人臉編輯。不過將它用在視頻中還是有點挑戰(zhàn)性：一個是缺乏高質(zhì)量數(shù)據(jù)集，一個是需要克服時間一致性（temporal coherency）這一基本障礙。

不過研究人員認為，第二點這個障礙主要是人為的。因為原視頻本具備時間一致性，編輯后的視頻卻變了，部分原因就是在 editing pipeline 中對一些組件（component）處理不當。而他們提出的這個視頻人臉語義編輯框架，相對于當前技術(shù)水平做出了重大改進：只采用了標準的非時序 StyleGAN2，對 GAN editing pipeline 中的不同組件進行分析，確定哪些組件具備一致性，就用這些組件來操作。整個過程不涉及任何用來維持時間一致性的額外操作。具體流程一共分為六步：

“眾所周知，視頻不能 P”，GAN 模型：是嗎？P 視頻來了