參數(shù)量 42 億，微軟公布 SLM 小語言 AI 模型最新成員 Phi-3-vision

2024/5/26 7:28:34 來源：IT之家作者：漾仔責(zé)編：漾仔

評論：

IT之家 5 月 26 日消息，微軟近日公布了旗下小語言 AI 模型家族（SLM）最新成員“Phi-3-vision”，這款模型主打“視覺能力”，能夠理解圖文內(nèi)容，同時(shí)據(jù)稱可以在移動(dòng)平臺(tái)上流暢高效運(yùn)行。

據(jù)介紹，Phi-3-vision 是微軟 Phi-3 家族首款多模態(tài)模型，該模型的文字理解能力基于 Phi-3-mini，同時(shí)也具備 Phi-3-mini 的輕量特點(diǎn)，能夠在移動(dòng)平臺(tái) / 嵌入終端中運(yùn)行；該模型參數(shù)量為 42 億，大于 Phi-3-mini（3.8B），但小于 Phi-3-small（7B），上下文長度為 128k token，訓(xùn)練期間為 2024 年 2 月至 4 月。

IT之家注意到，Phi-3-vision 模型的最大特色正如其名，主要支持“圖文識別能力”，號稱能夠理解現(xiàn)實(shí)世界的圖片含義，還能快速識別提取圖片中的文字。

微軟表示，Phi-3-vision 特別適合辦公場合，開發(fā)人員特別優(yōu)化了該模型在識別圖表和方塊圖 (Block diagram) 方面的理解能力，據(jù)稱可以利用用戶輸入的信息進(jìn)行推論，同時(shí)還能做出一系列結(jié)論，為企業(yè)提供戰(zhàn)略建議，號稱“效果比肩大模型”。

在模型訓(xùn)練方面，微軟聲稱 Phi-3-vision 是由“多種類型圖片及文字?jǐn)?shù)據(jù)訓(xùn)練而成”，包括一系列“經(jīng)過嚴(yán)選的公開內(nèi)容”，例如“教科書等級”教育材料、代碼、圖文標(biāo)注數(shù)據(jù)、現(xiàn)實(shí)世界知識、圖表圖片、聊天格式等內(nèi)容，從而確保模型輸入內(nèi)容的多樣性。為了確保隱私，微軟聲稱他們所使用的訓(xùn)練數(shù)據(jù)“可追溯”不包含任何個(gè)人信息。

性能方面，微軟提供了 Phi-3-vision 相較于字節(jié)跳動(dòng) Llama3-Llava-Next（8B）、微軟研究院和威斯康星大學(xué)、哥倫比亞大學(xué)合作的 LlaVA-1.6（7B）、阿里巴巴通義千問 QWEN-VL-Chat 模型等競品模型的比較圖表，其中顯示 Phi-3-vision 模型在多個(gè)項(xiàng)目上表現(xiàn)優(yōu)異。

參數(shù)量 42 億，微軟公布 SLM 小語言 AI 模型最新成員 Phi-3-vision

目前微軟已經(jīng)將該模型上傳至 Hugging Face，感興趣的小伙伴們可以訪問項(xiàng)目地址：點(diǎn)此進(jìn)入

參數(shù)量 42 億，微軟公布 SLM 小語言 AI 模型最新成員 Phi-3-vision

相關(guān)閱讀：

相關(guān)文章

參數(shù)量 42 億，微軟公布 SLM 小語言 AI 模型最新成員 Phi-3-vision

相關(guān)閱讀：

相關(guān)文章

參數(shù)量 42 億，微軟公布 SLM 小語言 AI 模型最新成員 Phi-3-vision