IT之家 1 月 9 日消息,Meta 日前公布了一項(xiàng)名為 audio2photoreal 的 AI 框架,該框架能夠生成一系列逼真的 NPC 人物模型,并借助現(xiàn)有配音文件自動(dòng)為人物模型“對口型”“擺動(dòng)作”。
IT之家從官方研究報(bào)告中得知,Audio2photoreal 框架在接收到配音文件后,首先生成一系列 NPC 模型,之后利用量化技術(shù)及擴(kuò)散算法生成模型用動(dòng)作,其中量化技術(shù)為框架提供動(dòng)作樣本參考、擴(kuò)散算法用于改善框架生成的人物動(dòng)作效果。
研究人員提到,該框架可以生成 30 FPS 的“高質(zhì)量動(dòng)作樣本”,還能模擬人類在對話中“手指點(diǎn)物”、“轉(zhuǎn)手腕”或“聳肩”等不由自主的“習(xí)慣性動(dòng)作”。
研究人員援引自家實(shí)驗(yàn)結(jié)果,在對照實(shí)驗(yàn)中有 43% 的評估者對框架生成的人物對話場景感到“強(qiáng)烈滿意”,因此研究人員認(rèn)為 Audio2photoreal 框架相對于業(yè)界競品能夠生成“更具動(dòng)態(tài)和表現(xiàn)力”的動(dòng)作。
據(jù)悉,研究團(tuán)隊(duì)目前已經(jīng)在 GitHub 公開了相關(guān)代碼和數(shù)據(jù)集,感興趣的小伙伴可以點(diǎn)此訪問。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。