訊飛星火多模態(tài)交互大模型上線，數(shù)字人、語音、視覺支持一鍵調(diào)用

2024/11/14 18:07:54 來源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 11 月 14 日消息，“訊飛開放平臺(tái)”公眾號(hào)今天傍晚宣布，訊飛星火多模態(tài)交互大模型正式上線，其實(shí)現(xiàn)從語音交互拓展到音視頻流實(shí)時(shí)多模交互，新增“多模態(tài)、超擬人和個(gè)性化”能力，實(shí)現(xiàn)語音、視覺、數(shù)字人交互三合一，支持一鍵調(diào)用。

據(jù)介紹，訊飛星火多模態(tài)交互大模型首發(fā)超擬人數(shù)字人技術(shù)，數(shù)字人軀干和四肢動(dòng)作能夠精準(zhǔn)匹配語音內(nèi)容，快速生成表情和動(dòng)作，令 AI“栩栩如生”。通過統(tǒng)一文本、語音和表情，能夠?qū)崿F(xiàn)跨模態(tài)的語義一致性，從而使大模型情感表達(dá)真實(shí)連貫。

其支持超擬人極速交互，采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語音到語音的端到端建模，響應(yīng)更快速、流暢，可敏銳感知情緒變化，也可根據(jù)指令自由變換聲音的節(jié)奏、大小和人設(shè)。

其支持多模態(tài)視覺交互，能夠“聽懂世界”“認(rèn)清萬物”，更全面感知具體背景場景、物流狀態(tài)等信息，對(duì)任務(wù)的理解更加精準(zhǔn)，并通過語音、手勢、行為、情緒等進(jìn)行綜合判斷，作出合適的回復(fù)。

據(jù)IT之家此前報(bào)道，用戶可與數(shù)字人進(jìn)行語音、視頻通話，數(shù)字人可實(shí)現(xiàn)與用戶的自然語音對(duì)話，人物表情等也能夠匹配說話的語句。星火超擬人數(shù)字人還支持多模態(tài)交互，可讓數(shù)字人識(shí)別攝像頭中的內(nèi)容，比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

訊飛星火多模態(tài)交互大模型上線，數(shù)字人、語音、視覺支持一鍵調(diào)用

相關(guān)文章

訊飛星火多模態(tài)交互大模型上線，數(shù)字人、語音、視覺支持一鍵調(diào)用