設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

上海人工智能實驗室開源多模態(tài)大模型“書生?萬象 3.0”:能同時處理文本和多模態(tài)輸入

2025/4/17 12:39:41 來源:IT之家 作者:清源 責編:清源

IT之家 4 月 17 日消息,據(jù)上海人工智能實驗室官方公眾號,4 月 16 日,上海人工智能實驗室(上海 AI 實驗室)升級并開源了通用多模態(tài)大模型書生?萬象 3.0(InternVL3)。

官方介紹,通過采用創(chuàng)新的多模態(tài)預訓練和后訓練方法,InternVL3 多模態(tài)基礎能力全面提升,在專家級基準測試、多模態(tài)性能全面測試中,10 億~780 億參數(shù)的全量級版本在開源模型中性能均位列第一,同時大幅提升了圖形用戶界面(GUI)智能體、建筑場景圖紙理解、空間感知推理以及通識學科推理等方面的能力。

據(jù)介紹,該團隊提出了一種創(chuàng)新的原生多模態(tài)預訓練方法,與傳統(tǒng)的先優(yōu)化大語言模型再添加視覺能力的方法不同,這種方法在模型的預訓練階段將文本數(shù)據(jù)與多模態(tài)數(shù)據(jù)無縫結(jié)合,讓模型能夠同時學習語言和視覺,從而能夠同時處理文本和多模態(tài)輸入。

除了可以處理通用的多模態(tài)任務之外,InternVL3 還拓展了多方面的多模態(tài)能力,如圖形用戶界面(GUI)智能體、建筑場景圖紙理解、空間感知推理、通識學科推理等。

據(jù)介紹,InternVL3 可作為 GUI 智能體,遵循指令去操作電腦或者手機上的專業(yè)軟件。

IT之家匯總有關鏈接如下:

  • 技術報告鏈接:https://huggingface.co/ papers / 2504.10479

  • 代碼開源 / 模型使用方法:https://github.com/ OpenGVLab / InternVL

  • 模型地址:https://huggingface.co/ OpenGVLab / InternVL3-78B

  • 公測版本:https://chat.intern-ai.org.cn/

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:人工智能,書生大模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知