IT之家 7 月 5 日消息,商湯科技發(fā)布“日日新 SenseNova 5.5”大模型體系,并發(fā)布國(guó)內(nèi)首個(gè)所見(jiàn)即所得模型“日日新 5o”,交互效果對(duì)標(biāo) GPT-4o。
通過(guò)整合跨模態(tài)信息,基于聲音、文本、圖像和視頻等多種形式,“日日新 5o”帶來(lái)全新的 AI 交互模式 —— 實(shí)時(shí)的流式多模態(tài)交互。
據(jù)介紹,“日日新 5o”能聽(tīng)、會(huì)看、更會(huì)找話題,就如同“真人聊天一般”,這種交互模式適用于實(shí)時(shí)對(duì)話和語(yǔ)音識(shí)別等應(yīng)用,能夠在同一模型中自然處理多種任務(wù),且根據(jù)不同上下文自適應(yīng)調(diào)整行為和輸出。
日日新 5.5 是國(guó)內(nèi)首個(gè)正式發(fā)布的流式原生多模態(tài)交互模型,模型訓(xùn)練基于超過(guò) 10TB tokens 高質(zhì)量訓(xùn)練數(shù)據(jù),包括大量高質(zhì)量的人工合成數(shù)據(jù),構(gòu)建了高階思維鏈。模型采用混合端云協(xié)同架構(gòu),擁有 6000 億參數(shù),可最大限度發(fā)揮云邊端協(xié)同,達(dá)到 109.5 字 / 秒的推理速度。
據(jù)IT之家此前報(bào)道,商湯科技在世界人工智能大會(huì)上還發(fā)布了首個(gè)“可控”人物視頻生成大模型 Vimi,通過(guò)一張任意風(fēng)格的照片就能生成和目標(biāo)動(dòng)作一致的人物類(lèi)視頻,并支持多種驅(qū)動(dòng)方式,可通過(guò)已有人物視頻、動(dòng)畫(huà)、聲音、文字等多種元素進(jìn)行驅(qū)動(dòng)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。