IT之家 11 月 14 日消息,“訊飛開放平臺(tái)”公眾號(hào)今天傍晚宣布,訊飛星火多模態(tài)交互大模型正式上線,其實(shí)現(xiàn)從語音交互拓展到音視頻流實(shí)時(shí)多模交互,新增“多模態(tài)、超擬人和個(gè)性化”能力,實(shí)現(xiàn)語音、視覺、數(shù)字人交互三合一,支持一鍵調(diào)用。
據(jù)介紹,訊飛星火多模態(tài)交互大模型首發(fā)超擬人數(shù)字人技術(shù),數(shù)字人軀干和四肢動(dòng)作能夠精準(zhǔn)匹配語音內(nèi)容,快速生成表情和動(dòng)作,令 AI“栩栩如生”。通過統(tǒng)一文本、語音和表情,能夠?qū)崿F(xiàn)跨模態(tài)的語義一致性,從而使大模型情感表達(dá)真實(shí)連貫。
其支持超擬人極速交互,采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語音到語音的端到端建模,響應(yīng)更快速、流暢,可敏銳感知情緒變化,也可根據(jù)指令自由變換聲音的節(jié)奏、大小和人設(shè)。
其支持多模態(tài)視覺交互,能夠“聽懂世界”“認(rèn)清萬物”,更全面感知具體背景場景、物流狀態(tài)等信息,對(duì)任務(wù)的理解更加精準(zhǔn),并通過語音、手勢、行為、情緒等進(jìn)行綜合判斷,作出合適的回復(fù)。
據(jù)IT之家此前報(bào)道,用戶可與數(shù)字人進(jìn)行語音、視頻通話,數(shù)字人可實(shí)現(xiàn)與用戶的自然語音對(duì)話,人物表情等也能夠匹配說話的語句。星火超擬人數(shù)字人還支持多模態(tài)交互,可讓數(shù)字人識(shí)別攝像頭中的內(nèi)容,比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。