微軟公布 Text To Speech Avatar AI 工具：可制作虛擬 3D 數(shù)字人、基于 Azure 平臺(tái)

2023/11/16 14:24:50 來源：IT之家作者：漾仔（實(shí)習(xí)） 責(zé)編：漾仔

評(píng)論：

IT之家 11 月 16 日消息，微軟在 Ignite 大會(huì)中，為 Azure AI Speech 推出了一項(xiàng)名為“Azure AI Speech text to speech (TTS) avatar”的 AI 工具，號(hào)稱可以生成人類逼真虛擬化身（數(shù)字人），目前這款工具已經(jīng)開放給大眾預(yù)覽試用。

微軟表示，用戶使用 Azure AI Speech text to speech (TTS) avatar，可以建立基于“輸入文字說出內(nèi)容”的虛擬化身，并結(jié)合現(xiàn)實(shí)人物照片訓(xùn)練，建立以真實(shí)人物為基礎(chǔ)的“互動(dòng)式聊天機(jī)器人”，可用于企業(yè)的營(yíng)銷、業(yè)務(wù)或客戶服務(wù)等場(chǎng)景。

據(jù)悉，這項(xiàng) Azure AI Speech text to speech (TTS) avatar 主要包含三個(gè)模塊，分別是文字分析器、TTS 聲音合成器及 TTS 虛擬化身合成器：

文字分析器會(huì)先分析用戶輸入的文字內(nèi)容，產(chǎn)生音素序列（phoneme sequence）。接著 TTS 聲音合成器中的 TTS 語(yǔ)音模型會(huì)預(yù)測(cè)用戶輸入文字的聲學(xué)特征，再合成聲音。最后，由神經(jīng)網(wǎng)絡(luò)聲音合成模型 Avatar，根據(jù)上述聲學(xué)特征預(yù)測(cè)人物的唇形影像，最終形成虛擬化身影像。

微軟解釋，傳統(tǒng)虛擬化身制作費(fèi)時(shí)耗工，需要建立專用拍攝環(huán)境、而拍攝剪輯后期過程也相當(dāng)花成本。而當(dāng)下運(yùn)用微軟最新的 Azure AI Speech text to speech (TTS) avatar 服務(wù)，在初次建立模型后，用戶只要輸入文字就可以制作各種產(chǎn)品介紹、互動(dòng)視頻等。配合微軟 Azure OpenAI Service 及神經(jīng)網(wǎng)絡(luò) TTS 功能，還能呈現(xiàn)更自然的互動(dòng)體驗(yàn)。

微軟公布 Text To Speech Avatar AI 工具：可制作虛擬 3D 數(shù)字人、基于 Azure 平臺(tái)

IT之家發(fā)現(xiàn)，微軟舉例聲稱，用戶可利用 Azure AI Speech TTS avatar 批量制作各種視頻內(nèi)容，例如企業(yè)文化影片、產(chǎn)品介紹或 CEO 在大會(huì)上的數(shù)字分身。也可以制作虛擬直播數(shù)字人、聊天機(jī)器人、業(yè)務(wù)機(jī)器人、或線上教學(xué)的 AI 老師等。

微軟公布 Text To Speech Avatar AI 工具：可制作虛擬 3D 數(shù)字人、基于 Azure 平臺(tái)

微軟表示，Azure AI Speech text to speech (TTS) avatar 目前已經(jīng)向 Azure 訂閱用戶推出，支持各種語(yǔ)言，用戶可以從預(yù)設(shè)的虛擬化身選項(xiàng)中挑選想要的角色，也可以自行定制虛擬化身。

微軟公布 Text To Speech Avatar AI 工具：可制作虛擬 3D 數(shù)字人、基于 Azure 平臺(tái)

如果用戶想要自行定制虛擬化身，則需要上傳一批人物視頻片段，Azure 平臺(tái)就會(huì)在線上處理這些視頻，從而生成虛擬化身。角色本身與音源分開，用戶可以選擇官方提供的默認(rèn)音源，也可以自行上傳訓(xùn)練音源。

微軟公布 Text To Speech Avatar AI 工具：可制作虛擬 3D 數(shù)字人、基于 Azure 平臺(tái)

相關(guān)閱讀：

相關(guān)文章