設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

階躍星辰與吉利聯(lián)合開源兩款階躍 Step 系列多模態(tài)大模型

2025/2/18 10:23:00 來源:之家網(wǎng)站 作者:- 責(zé)編:-

2025 年 2 月 18 日,階躍星辰和吉利汽車集團聯(lián)合宣布,將雙方合作的階躍兩款 Step 系列多模態(tài)大模型向全球開發(fā)者開源。其中,包含目前全球范圍內(nèi)參數(shù)量最大、性能最好的開源視頻生成模型階躍 Step-Video-T2V,以及行業(yè)內(nèi)首款產(chǎn)品級開源語音交互大模型階躍 Step-Audio。即日起可在躍問 App 內(nèi)體驗。

階躍星辰是吉利汽車集團的科技生態(tài)戰(zhàn)略合作伙伴。在兩款大模型的研發(fā)過程中,雙方展開了深度合作,在算力算法、場景訓(xùn)練等領(lǐng)域優(yōu)勢互補,顯著增強了多模態(tài)大模型的性能表現(xiàn)。此次聯(lián)合開源的行動,旨在促進大模型技術(shù)的共享與創(chuàng)新,推動人工智能的普惠發(fā)展。這一舉措也將為開源世界貢獻最強的多模態(tài)大模型能力,形成大模型開源世界的又一股中國力量。

吉利汽車集團 CEO 淦家閱表示:“吉利致力成為智能汽車 AI 科技的引領(lǐng)者和普及者,早在 2021 年,吉利就圍繞芯片、軟件操作系統(tǒng)、數(shù)據(jù)和衛(wèi)星網(wǎng)搭建了端到端的自研體系和生態(tài)聯(lián)盟,構(gòu)建了完善的‘智能吉利科技生態(tài)網(wǎng)’,驅(qū)動用戶在智能駕駛、智能座艙上的體驗不斷進化。目前,吉利全棧自研的星睿 AI 大模型已經(jīng)與階躍 Step-Video-T2V、Step-Audio 等大模型完成了深度融合,將為用戶帶來更智能、更高階的座艙交互與智駕出行體驗,推動 AI 科技在智能汽車領(lǐng)域的普及?!?/p>

據(jù)了解,這也是階躍星辰首次開源其 Step 系列基座模型。階躍星辰創(chuàng)始人、CEO 姜大昕博士表示:“階躍星辰一直以實現(xiàn) AGI 為目標堅持研發(fā)基座大模型。我們深知 AGI 的實現(xiàn)離不開全球開發(fā)者的共同努力,開源的初心,一方面是希望跟大家分享最新技術(shù)成果,為開源社區(qū)貢獻一份力量;另一方面,我們相信多模態(tài)模型是實現(xiàn) AGI 的必經(jīng)之路,但目前尚處于早期階段,期待與社區(qū)開發(fā)者集思廣益,共同拓展模型技術(shù)邊界,并推動產(chǎn)業(yè)落地?!?/p>

階躍 Step-Video-T2V:性能領(lǐng)跑全球開源視頻生成大模型

階躍 Step-Video-T2V 是目前全球范圍內(nèi)參數(shù)量最大、性能最好的開源視頻生成大模型。階躍 Step-Video-T2V 模型的參數(shù)量達到 300 億,可以直接生成 204 幀、540P 分辨率的高質(zhì)量視頻,這意味著能確保生成的視頻內(nèi)容具有極高的信息密度和強大的一致性。

從生成效果來看,階躍 Step-Video-T2V 在復(fù)雜運動、美感人物、視覺想象力、基礎(chǔ)文字生成、原生中英雙語輸入和鏡頭語言等方面具備強大的生成能力,且語義理解和指令遵循能力突出,能夠高效助力視頻創(chuàng)作者實現(xiàn)精準創(chuàng)意呈現(xiàn)。用戶可以在躍問網(wǎng)頁端(https://yuewen.cn/ videos)和躍問 App 上體驗階躍 Step-Video-T2V 的視頻生成能力。

為了對開源視頻生成模型的性能進行全面評測,階躍星辰還發(fā)布并開源了針對文生視頻質(zhì)量評測的新基準數(shù)據(jù)集 Step-Video-T2V-Eval。該測試集包含 128 條源于真實用戶的中文評測問題,旨在評估生成視頻在運動、風(fēng)景、動物、組合概念、超現(xiàn)實、人物、3D 動畫、電影攝影等 11 個內(nèi)容類別上質(zhì)量。

Drawing 0

▲ Step-Video-T2V-Eval 評測結(jié)果

評測結(jié)果顯示,階躍 Step-Video-T2V 的模型性能在指令遵循、運動平滑性、物理合理性、美感度等方面的表現(xiàn),均顯著超過市面上既有的效果最佳的開源視頻模型。

據(jù)了解,目前在躍問網(wǎng)頁端(https://yuewen.cn/ videos)和躍問 App 上,都可以體驗階躍 Step-Video-T2V 的視頻生成能力。

階躍 Step-Audio:業(yè)內(nèi)首款產(chǎn)品級開源語音交互模型

階躍 Step-Audio 是行業(yè)內(nèi)首個產(chǎn)品級的開源語音交互模型,能夠根據(jù)不同的場景需求生成情緒、方言、語種、歌聲和個性化風(fēng)格的表達,能和用戶自然地高質(zhì)量對話。模型生成的語音具有超自然、高情商等特征,同時也能實現(xiàn)高質(zhì)量的音色復(fù)刻并進行角色扮演,滿足影視娛樂、社交、游戲等行業(yè)場景下應(yīng)用需求。

Drawing 1

在 LlaMA Question、Web Questions 等 5 大主流公開測試集中,階躍 Step-Audio 模型性能均超過了行業(yè)內(nèi)同類型開源模型,位列第一。階躍 Step-Audio 在 HSK-6(漢語水平考試六級)評測中的表現(xiàn)尤為突出,是最懂中國話的開源語音交互大模型。

Drawing 2

▲ StepEval-Audio-360 基準測試

此外,由于目前行業(yè)內(nèi)語音對話測試集相對缺失,階躍星辰自建并開源了多維度評估體系 StepEval-Audio-360 基準測試,從角色扮演、邏輯推理、生成控制、文字游戲、創(chuàng)作能力、指令控制等 9 項基礎(chǔ)能力的維度對開源語音模型進行全面測評。通過人工橫評后的結(jié)果顯示,階躍 Step-Audio 的模型能力十分均衡,且在各個維度上均超過了此前市面上效果最佳的開源語音模型。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:業(yè)界動態(tài)

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知