面壁智能推出 MiniCPM-Llama3-V 2.5 開源端側(cè)多模態(tài)模型：8B 參數(shù)、高效部署手機(jī)

2024/5/21 16:07:14 來源：IT之家作者：泓澄（實(shí)習(xí)） 責(zé)編：泓澄

評論：

感謝IT之家網(wǎng)友 Apllo 的線索投遞！

IT之家 5 月 21 日消息，面壁智能昨晚推出并開源 MiniCPM 系列最新的端側(cè)多模態(tài)模型 MiniCPM-Llama3-V 2.5，支持 30+ 種語言，宣稱可實(shí)現(xiàn)：

最強(qiáng)端側(cè)多模態(tài)綜合性能：超越 Gemini Pro 、GPT-4V
OCR 能力 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，難圖長圖長文本精準(zhǔn)識別
圖像編碼快 150 倍：首次端側(cè)系統(tǒng)級多模態(tài)加速

OpenCompass 模型量級對比

▲ OpenCompass 模型量級對比

MiniCPM-Llama3-V 2.5 總參數(shù)量為 8B，多模態(tài)綜合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用閉源模型，OCR 能力及指令跟隨能力得到進(jìn)一步提升，可精準(zhǔn)識別難圖、長圖、長文本，并支持超過 30 種語言的多模態(tài)交互。

官方測試結(jié)果

▲ 官方測試結(jié)果

在 OpenCompass 測試中，MiniCPM-Llama3-V 2.5 綜合性能超越多模態(tài)“巨無霸”GPT-4V 和 Gemini Pro；在 OCRBench 上，超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等標(biāo)桿模型。

OpenCompass 測試

▲ OpenCompass 測試

OCRBench 測試

▲ OCRBench 測試

Object HalBench 測試

▲ Object HalBench 測試

RealWorldQA 測試

▲ RealWorldQA 測試

此外，在圖像編碼方面，MiniCPM-Llama3-V 2.5 首次整合 NPU 和 CPU 加速框架，并結(jié)合顯存管理、編譯優(yōu)化技術(shù)，實(shí)現(xiàn)了 150 倍加速提升。

在語言模型推理方面，經(jīng)過 CPU、編譯優(yōu)化、顯存管理等優(yōu)化方式，MiniCPM-Llama3-V 2.5 在手機(jī)端的語言解碼速度由 Llama 3 的 0.5 token / s 上下提升到 3-4 token / s，并可支持 30 多種語言，包括德語、法語、西班牙語、意大利語、俄語等主流語言，基本覆蓋一帶一路國家。

LLaVABench 評測結(jié)果

▲ LLaVABench 評測結(jié)果

OCR 技術(shù)方面，MiniCPM-Llama3-V 2.5 實(shí)現(xiàn)高效編碼及無損識別 180 萬高清像素圖片，并且支持任意長寬比、甚至 1:9 極限比例圖像。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

面壁智能推出 MiniCPM-Llama3-V 2.5 開源端側(cè)多模態(tài)模型：8B 參數(shù)、高效部署手機(jī)

相關(guān)文章

面壁智能推出 MiniCPM-Llama3-V 2.5 開源端側(cè)多模態(tài)模型：8B 參數(shù)、高效部署手機(jī)