IT之家 8 月 26 日消息,云知聲于 23 日宣布推出山海多模態(tài)大模型。
通過(guò)整合跨模態(tài)信息,山海多模態(tài)大模型能夠接收文本、音頻、圖像等多種形式作為輸入,并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出。
IT之家獲悉,山海多模態(tài)大模型有如下特點(diǎn):
實(shí)時(shí)秒回,自由插話:與現(xiàn)實(shí)對(duì)話中人類的響應(yīng)時(shí)間相似;支持對(duì)話隨時(shí)打斷,用戶可在對(duì)話中任意插話
感知情緒,表達(dá)情緒:通過(guò)語(yǔ)音文本判斷用戶情緒,還能捕捉用戶語(yǔ)音的語(yǔ)氣、節(jié)奏和音調(diào)等微妙變化,感知對(duì)方情緒狀態(tài)
音色自由切換:根據(jù)用戶的個(gè)性化需求,自由切換音色;學(xué)習(xí)用戶的音色、風(fēng)格,復(fù)刻用戶聲音
視覺(jué)場(chǎng)景理解:“看見”周圍環(huán)境,結(jié)合圖像和文字,提供易于理解的總結(jié)
圖像生成,構(gòu)筑個(gè)性藝術(shù):根據(jù)用戶指令創(chuàng)建視覺(jué)內(nèi)容,提供符合個(gè)性化需求的定制畫面
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。