谷歌 DeepMind 新研究：利用 AI 模型為無聲視頻配音

2024/6/18 22:23:41 來源：IT之家作者：漾仔責編：漾仔

評論：

IT之家 6 月 18 日消息，據(jù)谷歌 DeepMind 新聞稿，DeepMind 近日公布了一項利用 AI 為無聲視頻生成背景音樂的“video-to-audio”技術。

IT之家獲悉，當前 DeepMind 這款 AI 模型依然存在局限性，需要開發(fā)者使用提示詞為模型預先“介紹”視頻可能的聲音，暫時不能直接根據(jù)視頻畫面添加具體音效。

據(jù)悉，該模型首先會將用戶輸入的視頻進行拆解，此后結(jié)合用戶的用戶文字提示，利用擴散模型反復運算，最終以生成與視頻畫面協(xié)調(diào)的背景聲音，例如輸入一條“在黑暗中行走”的無聲視頻，再添加“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”等文字提示，相關模型就能生成恐怖風格的背景音效。

谷歌 DeepMind 新研究：利用 AI 模型為無聲視頻配音

DeepMind 同時表示，該“video-to-audio”模型可以為任何視頻生成無限數(shù)量的音軌，還能夠通過提示詞內(nèi)容判斷生成的音頻“正向性”或“反向性”，從而令生成的聲音更貼近某些特定場景。

展望未來，DeepMind 表示研究人員正進一步優(yōu)化這款“video-to-audio”模型，計劃未來能夠讓模型直接根據(jù)視頻內(nèi)容，無須通過提示詞即可生成視頻背景音，同時還將改善視頻中人物對白的口型同步能力。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：谷歌，DeepMind，AI

谷歌 DeepMind 新研究：利用 AI 模型為無聲視頻配音

相關文章