設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

訊飛星火多模態(tài)交互大模型上線,數(shù)字人、語音、視覺支持一鍵調(diào)用

2024/11/14 18:07:54 來源:IT之家 作者:清源 責(zé)編:清源

IT之家 11 月 14 日消息,“訊飛開放平臺(tái)”公眾號(hào)今天傍晚宣布,訊飛星火多模態(tài)交互大模型正式上線,其實(shí)現(xiàn)從語音交互拓展到音視頻流實(shí)時(shí)多模交互,新增“多模態(tài)、超擬人和個(gè)性化”能力,實(shí)現(xiàn)語音、視覺、數(shù)字人交互三合一,支持一鍵調(diào)用。

據(jù)介紹,訊飛星火多模態(tài)交互大模型首發(fā)超擬人數(shù)字人技術(shù),數(shù)字人軀干和四肢動(dòng)作能夠精準(zhǔn)匹配語音內(nèi)容,快速生成表情和動(dòng)作,令 AI“栩栩如生”。通過統(tǒng)一文本、語音和表情,能夠?qū)崿F(xiàn)跨模態(tài)的語義一致性,從而使大模型情感表達(dá)真實(shí)連貫。

其支持超擬人極速交互,采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語音到語音的端到端建模,響應(yīng)更快速、流暢,可敏銳感知情緒變化,也可根據(jù)指令自由變換聲音的節(jié)奏、大小和人設(shè)。

其支持多模態(tài)視覺交互,能夠“聽懂世界”“認(rèn)清萬物”,更全面感知具體背景場景、物流狀態(tài)等信息,對(duì)任務(wù)的理解更加精準(zhǔn),并通過語音、手勢、行為、情緒等進(jìn)行綜合判斷,作出合適的回復(fù)。

據(jù)IT之家此前報(bào)道,用戶可與數(shù)字人進(jìn)行語音、視頻通話,數(shù)字人可實(shí)現(xiàn)與用戶的自然語音對(duì)話,人物表情等也能夠匹配說話的語句。星火超擬人數(shù)字人還支持多模態(tài)交互,可讓數(shù)字人識(shí)別攝像頭中的內(nèi)容,比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:科大訊飛,訊飛星火數(shù)字人

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知