設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

參數(shù)量 42 億,微軟公布 SLM 小語言 AI 模型最新成員 Phi-3-vision

2024/5/26 7:28:34 來源:IT之家 作者:漾仔 責(zé)編:漾仔

IT之家 5 月 26 日消息,微軟近日公布了旗下小語言 AI 模型家族(SLM)最新成員“Phi-3-vision”,這款模型主打“視覺能力”,能夠理解圖文內(nèi)容,同時(shí)據(jù)稱可以在移動(dòng)平臺(tái)上流暢高效運(yùn)行。

據(jù)介紹,Phi-3-vision 是微軟 Phi-3 家族首款多模態(tài)模型,該模型的文字理解能力基于 Phi-3-mini,同時(shí)也具備 Phi-3-mini 的輕量特點(diǎn),能夠在移動(dòng)平臺(tái) / 嵌入終端中運(yùn)行;該模型參數(shù)量為 42 億,大于 Phi-3-mini(3.8B),但小于 Phi-3-small(7B),上下文長度為 128k token,訓(xùn)練期間為 2024 年 2 月至 4 月。

IT之家注意到,Phi-3-vision 模型的最大特色正如其名,主要支持“圖文識別能力”,號稱能夠理解現(xiàn)實(shí)世界的圖片含義,還能快速識別提取圖片中的文字。

微軟表示,Phi-3-vision 特別適合辦公場合,開發(fā)人員特別優(yōu)化了該模型在識別圖表和方塊圖 (Block diagram) 方面的理解能力,據(jù)稱可以利用用戶輸入的信息進(jìn)行推論,同時(shí)還能做出一系列結(jié)論,為企業(yè)提供戰(zhàn)略建議,號稱“效果比肩大模型”。

在模型訓(xùn)練方面,微軟聲稱 Phi-3-vision 是由“多種類型圖片及文字?jǐn)?shù)據(jù)訓(xùn)練而成”,包括一系列“經(jīng)過嚴(yán)選的公開內(nèi)容”,例如“教科書等級”教育材料、代碼、圖文標(biāo)注數(shù)據(jù)、現(xiàn)實(shí)世界知識、圖表圖片、聊天格式等內(nèi)容,從而確保模型輸入內(nèi)容的多樣性。為了確保隱私,微軟聲稱他們所使用的訓(xùn)練數(shù)據(jù)“可追溯”不包含任何個(gè)人信息。

性能方面,微軟提供了 Phi-3-vision 相較于字節(jié)跳動(dòng) Llama3-Llava-Next(8B)、微軟研究院和威斯康星大學(xué)、哥倫比亞大學(xué)合作的 LlaVA-1.6(7B)、阿里巴巴通義千問 QWEN-VL-Chat 模型等競品模型的比較圖表,其中顯示 Phi-3-vision 模型在多個(gè)項(xiàng)目上表現(xiàn)優(yōu)異。

目前微軟已經(jīng)將該模型上傳至 Hugging Face,感興趣的小伙伴們可以訪問項(xiàng)目地址:點(diǎn)此進(jìn)入

相關(guān)閱讀:

英特爾力押 SLM 小語言 AI 模型,宣布旗下軟硬件已適配微軟 Phi-3

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,AI模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知