IT之家 4 月 17 日消息,據(jù)上海人工智能實驗室官方公眾號,4 月 16 日,上海人工智能實驗室(上海 AI 實驗室)升級并開源了通用多模態(tài)大模型書生?萬象 3.0(InternVL3)。
官方介紹,通過采用創(chuàng)新的多模態(tài)預訓練和后訓練方法,InternVL3 多模態(tài)基礎能力全面提升,在專家級基準測試、多模態(tài)性能全面測試中,10 億~780 億參數(shù)的全量級版本在開源模型中性能均位列第一,同時大幅提升了圖形用戶界面(GUI)智能體、建筑場景圖紙理解、空間感知推理以及通識學科推理等方面的能力。
據(jù)介紹,該團隊提出了一種創(chuàng)新的原生多模態(tài)預訓練方法,與傳統(tǒng)的先優(yōu)化大語言模型再添加視覺能力的方法不同,這種方法在模型的預訓練階段將文本數(shù)據(jù)與多模態(tài)數(shù)據(jù)無縫結(jié)合,讓模型能夠同時學習語言和視覺,從而能夠同時處理文本和多模態(tài)輸入。
除了可以處理通用的多模態(tài)任務之外,InternVL3 還拓展了多方面的多模態(tài)能力,如圖形用戶界面(GUI)智能體、建筑場景圖紙理解、空間感知推理、通識學科推理等。
據(jù)介紹,InternVL3 可作為 GUI 智能體,遵循指令去操作電腦或者手機上的專業(yè)軟件。
IT之家匯總有關鏈接如下:
技術報告鏈接:https://huggingface.co/ papers / 2504.10479
代碼開源 / 模型使用方法:https://github.com/ OpenGVLab / InternVL
模型地址:https://huggingface.co/ OpenGVLab / InternVL3-78B
公測版本:https://chat.intern-ai.org.cn/
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。