設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

一張照片、一段聲音秒生超逼真視頻!南大等提出全新框架,口型動(dòng)作精準(zhǔn)還原

新智元 2023/12/14 6:56:54 責(zé)編:遠(yuǎn)洋
感謝IT之家網(wǎng)友 刺客 的線索投遞!

  新智元報(bào)道  

編輯:潤(rùn) 好困

【新智元導(dǎo)讀】最近,來(lái)自南大等機(jī)構(gòu)的研究人員開(kāi)發(fā)了一個(gè)通用的框架,用一段音頻就能讓照片上的頭像講多國(guó)語(yǔ)言。不論是頭部動(dòng)作還是嘴型都非常自然,看到很多不錯(cuò)的

一段音頻 + 一張照片,瞬間照片里的人就能開(kāi)始講話了。

生成的講話動(dòng)畫不但口型和音頻能夠無(wú)縫對(duì)齊,面部表情和頭部姿勢(shì)都非常自然而且有表現(xiàn)力。

而且支持的圖像風(fēng)格也非常的多樣,除了一般的照片,卡通圖片,證件照等生成的效果都非常自然。

再加上多語(yǔ)言的支持,瞬間照片里的人物就活了過(guò)來(lái),張嘴就能飆外語(yǔ)。

這是由來(lái)自南京大學(xué)等機(jī)構(gòu)的研究人員提出的一個(gè)通用框架 ——VividTalk,只需要語(yǔ)音和一張圖片,就能生成高質(zhì)量的說(shuō)話視頻。

論文地址:https://arxiv.org/ abs / 2312.01841

這個(gè)框架是一個(gè)由音頻到網(wǎng)格生成,和網(wǎng)格到視頻生成組成的兩階段框架。

在第一階段,考慮面部運(yùn)動(dòng)和 blendshape 分布之間的一對(duì)多映射,利用 blendshape 和 3D 頂點(diǎn)作為中間表征,其中 blendshape 提供粗略運(yùn)動(dòng),頂點(diǎn)偏移描述細(xì)粒度嘴唇運(yùn)動(dòng)。

此外,還采用了基于多分支 Transformer 網(wǎng)絡(luò),以充分利用音頻上下文來(lái)建模與中間表征的關(guān)系。

為了更合理地從音頻中學(xué)習(xí)剛性頭部運(yùn)動(dòng),研究人員將此問(wèn)題轉(zhuǎn)化為離散有限空間中的代碼查詢?nèi)蝿?wù),并構(gòu)建具有重建和映射機(jī)制的可學(xué)習(xí)頭部姿勢(shì)代碼本。

之后,學(xué)習(xí)到的兩個(gè)運(yùn)動(dòng)都應(yīng)用于參考標(biāo)識(shí),從而產(chǎn)生驅(qū)動(dòng)網(wǎng)格。

在第二階段,基于驅(qū)動(dòng)網(wǎng)格和參考圖像,渲染內(nèi)表面和外表面(例如軀干)的投影紋理,從而全面建模運(yùn)動(dòng)。

然后設(shè)計(jì)一種新穎的雙分支運(yùn)動(dòng)模型來(lái)模擬密集運(yùn)動(dòng),將其作為輸入發(fā)送到生成器,以逐幀方式合成最終視頻。

VividTalk 可以生成具有表情豐富的面部表情和自然頭部姿勢(shì)的口型同步頭部說(shuō)話視頻。

如下表所示,視覺(jué)結(jié)果和定量分析都證明了新方法在生成質(zhì)量和模型泛化方面的優(yōu)越性。

框架實(shí)現(xiàn)方法

給定音頻序列和參考面部圖像作為輸入,新方法可以生成具有不同面部表情和自然頭部姿勢(shì)的頭部說(shuō)話視頻。

VividTalk 框架由兩個(gè)階段組成,分別稱為音頻到網(wǎng)格生成和網(wǎng)格到視頻生成。

音頻到網(wǎng)格生成

這一階段的目標(biāo)是根據(jù)輸入音頻序列和參考面部圖像生成 3D 驅(qū)動(dòng)的網(wǎng)格。

具體來(lái)說(shuō),首先利用 FaceVerse 來(lái)重建參考面部圖像。

接下來(lái),從音頻中學(xué)習(xí)非剛性面部表情運(yùn)動(dòng)和剛性頭部運(yùn)動(dòng)來(lái)驅(qū)動(dòng)重建的網(wǎng)格。

為此,研究人員提出了多分支 BlendShape 和頂點(diǎn)偏移生成器以及可學(xué)習(xí)的頭部姿勢(shì)代碼本。

BlendShape 和頂點(diǎn)偏移生成器

學(xué)習(xí)通用模型來(lái)生成準(zhǔn)確的嘴部動(dòng)作和具有特定人風(fēng)格的富有表現(xiàn)力的面部表情在兩個(gè)方面具有挑戰(zhàn)性:

1)第一個(gè)挑戰(zhàn)是音頻運(yùn)動(dòng)相關(guān)性問(wèn)題。由于音頻信號(hào)與嘴部運(yùn)動(dòng)最相關(guān),因此很難根據(jù)音頻對(duì)非嘴部運(yùn)動(dòng)進(jìn)行建模。

2)從音頻到面部表情動(dòng)作的映射自然具有一對(duì)多的屬性,這意味著相同的音頻輸入可能有不止一種正確的動(dòng)作模式,從而導(dǎo)致沒(méi)有個(gè)人特征的面部形象。

為了解決音頻運(yùn)動(dòng)相關(guān)性問(wèn)題,研究人員使用 blendshape 和頂點(diǎn)偏移作為中間表征,其中 blendshape 提供全局粗粒度的面部表情運(yùn)動(dòng),而與嘴唇相關(guān)的頂點(diǎn)偏移提供局部細(xì)粒度的嘴唇運(yùn)動(dòng)。

對(duì)于缺乏面部特征的問(wèn)題,研究人員提出了一種基于多分支 transformer 的生成器來(lái)單獨(dú)建模每個(gè)部分的運(yùn)動(dòng),并注入特定于主題的風(fēng)格以保持個(gè)人特征。

可學(xué)習(xí)的頭部姿勢(shì)密碼本

頭部姿勢(shì)是影響頭部說(shuō)話視頻真實(shí)感的另一個(gè)重要因素。然而,直接從音頻中學(xué)習(xí)它并不容易,因?yàn)樗鼈冎g的關(guān)系很弱,這會(huì)導(dǎo)致不合理和不連續(xù)的結(jié)果。

受到之前研究的啟發(fā),利用離散碼本作為先驗(yàn),即使在輸入降級(jí)的情況下也能保證高保真生成。

研究人員建議將此問(wèn)題轉(zhuǎn)化為離散且有限頭部姿勢(shì)空間中的代碼查詢?nèi)蝿?wù),并精心設(shè)計(jì)了兩階段訓(xùn)練機(jī)制,第一階段構(gòu)建豐富的頭部姿勢(shì)代碼本,第二階段將輸入音頻映射到碼本生成最終結(jié)果,如下圖所示。

網(wǎng)格到視頻生成

如下圖所示,研究人員提出了雙分支 motionvae 來(lái)對(duì) 2D 密集運(yùn)動(dòng)進(jìn)行建模,該運(yùn)動(dòng)將作為生成器的輸入來(lái)合成最終視頻。

將 3D 域運(yùn)動(dòng)直接轉(zhuǎn)換為 2D 域運(yùn)動(dòng)既困難又低效,因?yàn)榫W(wǎng)絡(luò)需要尋找兩個(gè)域運(yùn)動(dòng)之間的對(duì)應(yīng)關(guān)系以更好地建模。

為了提高網(wǎng)絡(luò)的性能并獲得進(jìn)一步的性能,研究人員借助投影紋理表示在 2D 域中進(jìn)行這種轉(zhuǎn)換。

如上圖所示,在面部分支中,參考投影紋理 P T 和驅(qū)動(dòng)的投影紋理 P Tare 連接并饋入編碼器,然后輸入 MLP,輸出 2D 面部運(yùn)動(dòng)圖。

為了進(jìn)一步增強(qiáng)嘴唇運(yùn)動(dòng)并更準(zhǔn)確地建模,研究人員還選擇與嘴唇相關(guān)的標(biāo)志并將其轉(zhuǎn)換為高斯圖,這是一種更緊湊、更有效的表示。

然后,沙漏網(wǎng)絡(luò)將減去的高斯圖作為輸入并輸出 2D 嘴唇運(yùn)動(dòng),該運(yùn)動(dòng)將與面部運(yùn)動(dòng)連接并解碼為密集運(yùn)動(dòng)和遮擋圖。

最后,研究人員根據(jù)之前預(yù)測(cè)的密集運(yùn)動(dòng)圖對(duì)參考圖像進(jìn)行變形,獲得變形圖像,該變形圖像將與遮擋圖一起作為生成器的輸入,逐幀合成最終視頻。

實(shí)驗(yàn)效果

數(shù)據(jù)集

HDTF 是一個(gè)高分辨率視聽(tīng)數(shù)據(jù)集,包含 346 個(gè)主題的超過(guò) 16 小時(shí)的視頻。VoxCeleb 是另一個(gè)更大的數(shù)據(jù)集,涉及超過(guò) 10 萬(wàn)個(gè)視頻和 1000 個(gè)身份。

研究人員首先過(guò)濾兩個(gè)數(shù)據(jù)集以刪除無(wú)效數(shù)據(jù),例如音頻和視頻不同步的數(shù)據(jù)。

然后裁剪視頻中的人臉區(qū)域并將其大小調(diào)整為 256×256。

最后,將處理后的視頻分為 80%、10%、10%,這將用于用于培訓(xùn)、驗(yàn)證和測(cè)試。

實(shí)施細(xì)節(jié)

在實(shí)驗(yàn)中,研究人員使用 FaceVerse 這種最先進(jìn)的單圖像重建方法來(lái)恢復(fù)視頻并獲得用于監(jiān)督的地面實(shí)況混合形狀和網(wǎng)格。

在訓(xùn)練過(guò)程中,Audio-To-Mesh 階段和 Mesh-To-Video 階段是分開(kāi)訓(xùn)練的。

具體來(lái)說(shuō),音頻到網(wǎng)格階段的 BlendShape 和頂點(diǎn)偏移生成器以及可學(xué)習(xí)頭部姿勢(shì)代碼本也分別進(jìn)行訓(xùn)練。

在推理過(guò)程中,研究人員的模型可以通過(guò)級(jí)聯(lián)上述兩個(gè)階段以端到端的方式工作。

對(duì)于優(yōu)化,使用 Adam 優(yōu)化器,兩個(gè)階段的學(xué)習(xí)率分別為 1×10 和 1×10。在 8 個(gè) NVIDIA V100 GPU 上的總訓(xùn)練時(shí)間為 2 天。

與 SOTA 的比較

可以看到,研究人員提出的方法可以生成高質(zhì)量的頭部說(shuō)話視頻,具有精確的唇形同步和富有表現(xiàn)力的面部運(yùn)動(dòng)。

相比之下:

  • SadTalker 無(wú)法生成準(zhǔn)確的細(xì)粒度嘴唇運(yùn)動(dòng),并且視頻質(zhì)量更低。

  • TalkLip 產(chǎn)生模糊結(jié)果,并將膚色風(fēng)格改為略黃,在一定程度上丟失了身份信息。

  • MakeItTalk 無(wú)法生成準(zhǔn)確的嘴形,尤其是在跨身份配音設(shè)置中。

  • Wav2Lip 傾向于合成模糊的嘴部區(qū)域,并在輸入單個(gè)參考圖像時(shí)輸出具有靜態(tài)頭部姿勢(shì)和眼球運(yùn)動(dòng)的視頻。

  • PC-AVS 需要驅(qū)動(dòng)視頻作為輸入,并努力保存身份。

定量比較

如下表所示,新方法在圖像質(zhì)量和身份保留方面表現(xiàn)更好,這通過(guò)較低的 FID 和較高的 CSIM 指標(biāo)反映出來(lái)。

由于新穎的可學(xué)習(xí)密碼本機(jī)制,新方法生成的頭部姿勢(shì)也更加多樣化和自然。

雖然新方法的 SyncNet 分?jǐn)?shù)低于 Wav2Lip,但可以驅(qū)動(dòng)使用單個(gè)音頻而不是視頻的參考圖像并生成更高質(zhì)量的幀。

參考資料:

  • https://humanaigc.github.io/vivid-talk/

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知