云知聲推出山海多模態(tài)大模型：實(shí)時(shí)生成文本、音頻和圖像

2024/8/26 13:56:12 來源：IT之家作者：沛霖（實(shí)習(xí)） 責(zé)編：沛霖

評(píng)論：

IT之家 8 月 26 日消息，云知聲于 23 日宣布推出山海多模態(tài)大模型。

通過整合跨模態(tài)信息，山海多模態(tài)大模型能夠接收文本、音頻、圖像等多種形式作為輸入，并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出。

▲ 云知聲山海助手微信小程序

IT之家獲悉，山海多模態(tài)大模型有如下特點(diǎn)：

實(shí)時(shí)秒回，自由插話：與現(xiàn)實(shí)對(duì)話中人類的響應(yīng)時(shí)間相似；支持對(duì)話隨時(shí)打斷，用戶可在對(duì)話中任意插話
感知情緒，表達(dá)情緒：通過語(yǔ)音文本判斷用戶情緒，還能捕捉用戶語(yǔ)音的語(yǔ)氣、節(jié)奏和音調(diào)等微妙變化，感知對(duì)方情緒狀態(tài)
音色自由切換：根據(jù)用戶的個(gè)性化需求，自由切換音色；學(xué)習(xí)用戶的音色、風(fēng)格，復(fù)刻用戶聲音
視覺場(chǎng)景理解：“看見”周圍環(huán)境，結(jié)合圖像和文字，提供易于理解的總結(jié)
圖像生成，構(gòu)筑個(gè)性藝術(shù)：根據(jù)用戶指令創(chuàng)建視覺內(nèi)容，提供符合個(gè)性化需求的定制畫面

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

相關(guān)文章