輸入配音文件即可生成人物對話場景，Meta 公布 audio2photoreal AI 框架

2024/1/9 19:57:30 來源：IT之家作者：漾仔（實(shí)習(xí)） 責(zé)編：漾仔

評論：

IT之家 1 月 9 日消息，Meta 日前公布了一項(xiàng)名為 audio2photoreal 的 AI 框架，該框架能夠生成一系列逼真的 NPC 人物模型，并借助現(xiàn)有配音文件自動(dòng)為人物模型“對口型”“擺動(dòng)作”。

▲ 圖源 Meta 研究報(bào)告（下同）

IT之家從官方研究報(bào)告中得知，Audio2photoreal 框架在接收到配音文件后，首先生成一系列 NPC 模型，之后利用量化技術(shù)及擴(kuò)散算法生成模型用動(dòng)作，其中量化技術(shù)為框架提供動(dòng)作樣本參考、擴(kuò)散算法用于改善框架生成的人物動(dòng)作效果。

研究人員提到，該框架可以生成 30 FPS 的“高質(zhì)量動(dòng)作樣本”，還能模擬人類在對話中“手指點(diǎn)物”、“轉(zhuǎn)手腕”或“聳肩”等不由自主的“習(xí)慣性動(dòng)作”。

輸入配音文件即可生成人物對話場景，Meta 公布 audio2photoreal AI 框架

研究人員援引自家實(shí)驗(yàn)結(jié)果，在對照實(shí)驗(yàn)中有 43% 的評估者對框架生成的人物對話場景感到“強(qiáng)烈滿意”，因此研究人員認(rèn)為 Audio2photoreal 框架相對于業(yè)界競品能夠生成“更具動(dòng)態(tài)和表現(xiàn)力”的動(dòng)作。

輸入配音文件即可生成人物對話場景，Meta 公布 audio2photoreal AI 框架

據(jù)悉，研究團(tuán)隊(duì)目前已經(jīng)在 GitHub 公開了相關(guān)代碼和數(shù)據(jù)集，感興趣的小伙伴可以點(diǎn)此訪問。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

輸入配音文件即可生成人物對話場景，Meta 公布 audio2photoreal AI 框架

相關(guān)文章

輸入配音文件即可生成人物對話場景，Meta 公布 audio2photoreal AI 框架