科學(xué)家開發(fā) DIRFA：輸入圖片和音頻，可生成說話視頻

2023/11/17 11:25:37 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 11 月 17 日消息，來自新加坡南洋理工大學(xué)（NTU Singapore）的科研團隊近日開發(fā)出了 DIRFA 工具，用戶給一張圖片以及音頻內(nèi)容，可以自動生成 3D 視頻，并實現(xiàn)口型和聲音的同步協(xié)調(diào)。

DIRFA 的全稱為 DIverse yet Realistic Facial Animations，訓(xùn)練了超過 6000 多人的 100 萬個視頻片段，音頻片段來自一個名為 VoxCeleb2 數(shù)據(jù)集的開源數(shù)據(jù)庫，并關(guān)聯(lián)面部表情和頭部運動。

研究人員表示，DIRFA 可能會在包括醫(yī)療保健在內(nèi)的各個行業(yè)和領(lǐng)域帶來新的應(yīng)用，因為它可以實現(xiàn)更復(fù)雜和逼真的虛擬助手和聊天機器人，從而改善用戶體驗。

DIRFA 還可以作為言語或面部殘疾人士的強大工具，幫助他們通過富有表現(xiàn)力的頭像或數(shù)字表示來傳達他們的想法和情感，從而增強他們的溝通能力。

IT之家附上論文參考地址：Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang, Shijian Lu. Audio-driven talking face generation with diverse yet realistic facial animations. Pattern Recognition, 2023; 144: 109865 DOI: 10.1016/j.patcog.2023.109865

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

科學(xué)家開發(fā) DIRFA：輸入圖片和音頻，可生成說話視頻

相關(guān)文章

科學(xué)家開發(fā) DIRFA：輸入圖片和音頻，可生成說話視頻