微軟發(fā)布最新智能語(yǔ)音合成模型 Uni-TTSv3：一音色多語(yǔ)言，高保真高效率

2021/11/16 22:45:57 來(lái)源：IT之家作者：玄隱責(zé)編：玄隱

評(píng)論：

IT之家 11 月 16 日消息，日前，微軟發(fā)布最新 Azure 神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù) Uni-TTSv3 多語(yǔ)言語(yǔ)音合成模型。與上一代語(yǔ)音合成模型相比，Uni-TTSv3 語(yǔ)音合成保真度更高、速度更快、訓(xùn)練時(shí)間更短，更降本增效。借助 Uni-TTSv3，微軟升級(jí)美語(yǔ)合成女聲 Jenny。全新升級(jí)的 Jenny Multilingual Neural，擁有跨語(yǔ)言能力，支持 14 個(gè)國(guó)家和地區(qū)的語(yǔ)言。

IT之家獲悉，此外，基于 Uni-TTSv3 而構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)定制語(yǔ)音服務(wù)，也擴(kuò)展了跨語(yǔ)言定制服務(wù)功能，客戶只需提供一個(gè)語(yǔ)言的錄音數(shù)據(jù)作為語(yǔ)料，即可訓(xùn)練定制模型同時(shí)說(shuō)多個(gè)語(yǔ)言。

Jenny Multilingual Neural 音頻示例：

隨著技術(shù)不斷迭代，微軟智能語(yǔ)音性能已能媲美真人，并支持超過(guò) 110 個(gè)國(guó)家和地區(qū)的語(yǔ)言，提供超過(guò) 270 個(gè)神經(jīng)網(wǎng)絡(luò)聲音。為進(jìn)一步拓寬語(yǔ)音使用場(chǎng)景，滿足各行業(yè)客戶的多元化需求，微軟智能語(yǔ)音也在不斷探索新的服務(wù)和能力：

跨語(yǔ)種語(yǔ)音技術(shù)需求：僅用一個(gè)音色就能生成同時(shí)覆蓋全球用戶的多語(yǔ)言應(yīng)用需求，譬如在虛擬游戲中創(chuàng)建具有多語(yǔ)言能力的 NPC (Non-Player Character , 非玩家角色)，在智能客服等場(chǎng)景中使用多種語(yǔ)言與用戶交談，提升用戶體驗(yàn)。
穩(wěn)定高效的平臺(tái)需求：使語(yǔ)音模型更加魯棒（robust，系統(tǒng)穩(wěn)定性），即使在定制服務(wù)場(chǎng)景中，也可以不受外界環(huán)境影響，穩(wěn)定、高效的處理不同類型的訓(xùn)練數(shù)據(jù)。

新一代神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù) Uni-TTSv3 的提出，旨在解決上述訴求并完善如下功能：

保真度高

Uni-TTSv3 是非自回歸語(yǔ)音合成模型，基于 FastSpeech 2（快速高質(zhì)量語(yǔ)音合成模型）構(gòu)建，通過(guò)直接使用真實(shí)語(yǔ)音進(jìn)行訓(xùn)練，并引入更多有關(guān)語(yǔ)速、語(yǔ)調(diào)、重音模式等語(yǔ)音變化信息，提高合成語(yǔ)音質(zhì)量。經(jīng)行業(yè)公認(rèn)的、專業(yè)評(píng)估語(yǔ)音自然度的 MOS（Mean Opinion Score 平均意見(jiàn)評(píng)分）評(píng)測(cè)結(jié)果顯示，智能合成女聲 Jenny Multilingual Neural 的各語(yǔ)種語(yǔ)音平均評(píng)分達(dá)到 4.2 分以上（總分 5 分），語(yǔ)音保真度高。

微軟發(fā)布最新智能語(yǔ)音合成模型 Uni-TTSv3：一音色多語(yǔ)言，高保真高效率

▲ Uni-TTSv3 模型結(jié)構(gòu)圖

多語(yǔ)言通用

Uni-TTSv3 是強(qiáng)大的多語(yǔ)言語(yǔ)音模型，在多語(yǔ)言和多說(shuō)話人數(shù)據(jù)集上訓(xùn)練。Uni-TTSv3 通過(guò)訓(xùn)練來(lái)自 50 多個(gè)不同地域和口音的發(fā)音人在不同場(chǎng)景下錄制的超過(guò) 3,000 個(gè)小時(shí)的語(yǔ)音數(shù)據(jù)，構(gòu)建多語(yǔ)言通用基礎(chǔ)語(yǔ)音模型，確保 AI 語(yǔ)音在語(yǔ)速、語(yǔ)調(diào)和重音模式等不變的情況下演繹多國(guó)語(yǔ)言。

訓(xùn)練時(shí)間更短

Uni-TTSv3 授權(quán) Azure 語(yǔ)音合成平臺(tái)和自定義神經(jīng)語(yǔ)音支持多語(yǔ)種語(yǔ)音。借助 Uni-TTSv3 升級(jí)自定義神經(jīng)語(yǔ)音訓(xùn)練管道，支持客戶用更短的訓(xùn)練時(shí)間創(chuàng)建高質(zhì)量的語(yǔ)音模型。與上一代語(yǔ)音合成模型相比，Uni-TTSv3 調(diào)優(yōu)過(guò)程簡(jiǎn)單，尤其在聲學(xué)訓(xùn)練部分，訓(xùn)練時(shí)間顯著減少 50% 左右，更加降本增效。

微軟發(fā)布最新智能語(yǔ)音合成模型 Uni-TTSv3：一音色多語(yǔ)言，高保真高效率

▲ Uni-TTSv3 模型訓(xùn)練示意圖

你可以點(diǎn)此鏈接試用體驗(yàn) Uni-TTSv3 多語(yǔ)言語(yǔ)音合成模型，并使用微軟 Azure 有聲內(nèi)容制作平臺(tái)制作高質(zhì)量合成語(yǔ)音。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟發(fā)布最新智能語(yǔ)音合成模型 Uni-TTSv3：一音色多語(yǔ)言，高保真高效率

相關(guān)文章

微軟發(fā)布最新智能語(yǔ)音合成模型 Uni-TTSv3：一音色多語(yǔ)言，高保真高效率