首頁 > 智能時代>人工智能

英偉達用 AI 給紀錄片配音：情緒節(jié)奏穩(wěn)穩(wěn)拿捏，不說根本聽不出來

量子位 2021/9/1 14:37:19 責編：問舟

評論：

雖然日常和你對話的 Siri 聲音機械，還常常胡亂斷句，但實際上，最新的技術(shù)進展顯示，AI 的語音合成能力已經(jīng)可以說得上是以假亂真。

比如英偉達，最近就發(fā)布了一個更懂節(jié)奏、更具感情的語音合成 AI。

在英偉達的紀錄片中，她的自我介紹口齒清晰自不必說，氣息頓挫、情緒把控，播音員范兒絕對夠正。

幀級控制合成語音

英偉達將在 9 月 3 日的語音技術(shù)頂會 Interspeech 2021 上展示該項目的最新成果。

不過，其背后的技術(shù)，此前就已經(jīng)幫助自家數(shù)字人在 SIGGRAPH Real-Time Live 上摘下了最佳展示獎。

英偉達用 AI 給紀錄片配音：情緒節(jié)奏穩(wěn)穩(wěn)拿捏，不說根本聽不出來

核心是名為 RAD-TTS 的語音合成方法。

這是一個并行的端到端 TTS 模型。與此前的并行方法不同，RAD-TTS 將語音節(jié)奏作為一個單獨的生成分布來建模。如此，在推理過程中，語音的持續(xù)時間就能被更好地控制。

英偉達用 AI 給紀錄片配音：情緒節(jié)奏穩(wěn)穩(wěn)拿捏，不說根本聽不出來

從 RAD-TTS 的演示界面中也可以看出，用戶可以在幀級別上控制合成語音的音調(diào)、持續(xù)時間和節(jié)奏力度。

英偉達用 AI 給紀錄片配音：情緒節(jié)奏穩(wěn)穩(wěn)拿捏，不說根本聽不出來

研究人員還介紹，RAD-TTS 既可以將任意文本轉(zhuǎn)換成說話人的聲音，也可以將一個說話人的聲音（甚至是歌聲）轉(zhuǎn)換成另一個人的聲音。

也就是說，合成語音的制作人可以像指導(dǎo)配音演員一樣去“指導(dǎo)”AI，讓它學會哪個單詞應(yīng)該重點突出、節(jié)奏如何把控更符合創(chuàng)作基調(diào)等等。

機器語音能有多真實？

其實，不只是英偉達，此前，小冰也發(fā)布過超級自然語音技術(shù)。

把一句人類的語音混進小冰的語音里，你能分辨到底哪一句來自真正的人類嗎？

不過，小冰公司 CEO 李笛此前曾表示，AI 的聲音太接近真人，就很有可能被濫用。因此小冰禁止為普通個人訓(xùn)練聲音。

但這樣的技術(shù)，也正在通過電臺、便利店等更多商業(yè)場景，走進人們的日常生活。

參考鏈接：
[1] 論文地址：https://openreview.net/forum?id=0NQwnnwAORi
[2]https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

英偉達用 AI 給紀錄片配音：情緒節(jié)奏穩(wěn)穩(wěn)拿捏，不說根本聽不出來

幀級控制合成語音

機器語音能有多真實？

相關(guān)文章

機器語音能有多真實？