交互效果對(duì)標(biāo) GPT-4o，商湯發(fā)布國(guó)內(nèi)首個(gè)所見(jiàn)即所得模型“日日新 5o”

2024/7/5 13:51:36 來(lái)源：IT之家作者：沛霖（實(shí)習(xí)） 責(zé)編：沛霖

評(píng)論：

IT之家 7 月 5 日消息，商湯科技發(fā)布“日日新 SenseNova 5.5”大模型體系，并發(fā)布國(guó)內(nèi)首個(gè)所見(jiàn)即所得模型“日日新 5o”，交互效果對(duì)標(biāo) GPT-4o。

通過(guò)整合跨模態(tài)信息，基于聲音、文本、圖像和視頻等多種形式，“日日新 5o”帶來(lái)全新的 AI 交互模式 —— 實(shí)時(shí)的流式多模態(tài)交互。

據(jù)介紹，“日日新 5o”能聽(tīng)、會(huì)看、更會(huì)找話題，就如同“真人聊天一般”，這種交互模式適用于實(shí)時(shí)對(duì)話和語(yǔ)音識(shí)別等應(yīng)用，能夠在同一模型中自然處理多種任務(wù)，且根據(jù)不同上下文自適應(yīng)調(diào)整行為和輸出。

日日新 5.5 是國(guó)內(nèi)首個(gè)正式發(fā)布的流式原生多模態(tài)交互模型，模型訓(xùn)練基于超過(guò) 10TB tokens 高質(zhì)量訓(xùn)練數(shù)據(jù)，包括大量高質(zhì)量的人工合成數(shù)據(jù)，構(gòu)建了高階思維鏈。模型采用混合端云協(xié)同架構(gòu)，擁有 6000 億參數(shù)，可最大限度發(fā)揮云邊端協(xié)同，達(dá)到 109.5 字 / 秒的推理速度。

據(jù)IT之家此前報(bào)道，商湯科技在世界人工智能大會(huì)上還發(fā)布了首個(gè)“可控”人物視頻生成大模型 Vimi，通過(guò)一張任意風(fēng)格的照片就能生成和目標(biāo)動(dòng)作一致的人物類(lèi)視頻，并支持多種驅(qū)動(dòng)方式，可通過(guò)已有人物視頻、動(dòng)畫(huà)、聲音、文字等多種元素進(jìn)行驅(qū)動(dòng)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

交互效果對(duì)標(biāo) GPT-4o，商湯發(fā)布國(guó)內(nèi)首個(gè)所見(jiàn)即所得模型“日日新 5o”

相關(guān)文章