上海人工智能實驗室開源多模態(tài)大模型“書生?萬象 3.0”：能同時處理文本和多模態(tài)輸入

2025/4/17 12:39:41 來源：IT之家作者：清源責編：清源

評論：

IT之家 4 月 17 日消息，據(jù)上海人工智能實驗室官方公眾號，4 月 16 日，上海人工智能實驗室（上海 AI 實驗室）升級并開源了通用多模態(tài)大模型書生?萬象 3.0（InternVL3）。

官方介紹，通過采用創(chuàng)新的多模態(tài)預訓練和后訓練方法，InternVL3 多模態(tài)基礎能力全面提升，在專家級基準測試、多模態(tài)性能全面測試中，10 億~780 億參數(shù)的全量級版本在開源模型中性能均位列第一，同時大幅提升了圖形用戶界面（GUI）智能體、建筑場景圖紙理解、空間感知推理以及通識學科推理等方面的能力。

據(jù)介紹，該團隊提出了一種創(chuàng)新的原生多模態(tài)預訓練方法，與傳統(tǒng)的先優(yōu)化大語言模型再添加視覺能力的方法不同，這種方法在模型的預訓練階段將文本數(shù)據(jù)與多模態(tài)數(shù)據(jù)無縫結(jié)合，讓模型能夠同時學習語言和視覺，從而能夠同時處理文本和多模態(tài)輸入。

除了可以處理通用的多模態(tài)任務之外，InternVL3 還拓展了多方面的多模態(tài)能力，如圖形用戶界面（GUI）智能體、建筑場景圖紙理解、空間感知推理、通識學科推理等。

據(jù)介紹，InternVL3 可作為 GUI 智能體，遵循指令去操作電腦或者手機上的專業(yè)軟件。

上海人工智能實驗室開源多模態(tài)大模型“書生?萬象 3.0”：能同時處理文本和多模態(tài)輸入

IT之家匯總有關鏈接如下：

技術報告鏈接：https://huggingface.co/ papers / 2504.10479
代碼開源 / 模型使用方法：https://github.com/ OpenGVLab / InternVL
模型地址：https://huggingface.co/ OpenGVLab / InternVL3-78B
公測版本：https://chat.intern-ai.org.cn/

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：人工智能，書生大模型

上海人工智能實驗室開源多模態(tài)大模型“書生?萬象 3.0”：能同時處理文本和多模態(tài)輸入

相關文章