百川智能上線開(kāi)源全模態(tài)模型 Omni-1.5，號(hào)稱多項(xiàng)能力超越 GPT-4o mini

2025/1/26 15:32:39 來(lái)源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 1 月 26 日消息，百川智能今日宣布，Baichuan-Omni-1.5 開(kāi)源全模態(tài)模型正式上線。該模型不僅支持文本、圖像、音頻和視頻的全模態(tài)理解，還具備文本和音頻的雙模態(tài)生成能力。

官方宣稱，其在視覺(jué)、語(yǔ)音及多模態(tài)流式處理等方面，Baichuan-Omni-1.5 的表現(xiàn)均優(yōu)于 GPT-4o mini；在多模態(tài)醫(yī)療應(yīng)用領(lǐng)域，其具備更突出的領(lǐng)先優(yōu)勢(shì)。

Baichuan-Omni-1.5 不僅能在輸入和輸出端實(shí)現(xiàn)多種交互操作，還擁有強(qiáng)大的多模態(tài)推理能力和跨模態(tài)遷移能力。

百川智能上線開(kāi)源全模態(tài)模型 Omni-1.5，號(hào)稱多項(xiàng)能力超越 GPT-4o mini

其在音頻技術(shù)領(lǐng)域采用了端到端解決方案，可支持多語(yǔ)言對(duì)話、端到端音頻合成，還可實(shí)現(xiàn)自動(dòng)語(yǔ)音識(shí)別、文本轉(zhuǎn)語(yǔ)音等功能，且支持音視頻實(shí)時(shí)交互。

據(jù)介紹，在視頻理解能力方面，Baichuan-Omni-1.5 通過(guò)對(duì)編碼器、訓(xùn)練數(shù)據(jù)和訓(xùn)練方法等多個(gè)關(guān)鍵環(huán)節(jié)進(jìn)行深入優(yōu)化，其整體性能大幅超越 GPT-4o-mini。

百川智能上線開(kāi)源全模態(tài)模型 Omni-1.5，號(hào)稱多項(xiàng)能力超越 GPT-4o mini

模型結(jié)構(gòu)方面，Baichuan-Omni-1.5 的模型輸入部分支持各種模態(tài)通過(guò)相應(yīng)的 Encoder / Tokenizer 輸入到大型語(yǔ)言模型中。

而在模型輸出部分，Baichuan-Omni-1.5 采用了文本-音頻交錯(cuò)輸出的設(shè)計(jì)，通過(guò) Text Tokenizer 和 Audio Decoder 同時(shí)生成文本和音頻。

百川智能構(gòu)建了一個(gè)包含 3.4 億條高質(zhì)量圖片 / 視頻-文本數(shù)據(jù)和近 100 萬(wàn)小時(shí)音頻數(shù)據(jù)的龐大數(shù)據(jù)庫(kù)，且在 SFT 階段使用了 1700 萬(wàn)條全模態(tài)數(shù)據(jù)。

IT之家附開(kāi)源地址如下：

GitHub：

https://github.com/baichuan-inc/Baichuan-Omni-1.5

模型權(quán)重：

Baichuan-Omni-1.5：
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5
Baichuan-Omni-1.5-Base：
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

技術(shù)報(bào)告：

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

百川智能上線開(kāi)源全模態(tài)模型 Omni-1.5，號(hào)稱多項(xiàng)能力超越 GPT-4o mini

相關(guān)文章

百川智能上線開(kāi)源全模態(tài)模型 Omni-1.5，號(hào)稱多項(xiàng)能力超越 GPT-4o mini