設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟發(fā)布 Phi-3.5 系列 AI 模型:上下文窗口 128K,首次引入混合專家模型

2024/8/21 15:23:25 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 8 月 21 日消息,微軟公司今天發(fā)布了 Phi-3.5 系列 AI 模型,其中最值得關(guān)注的是推出了該系列首個(gè)混合專家模型(MoE)版本 Phi-3.5-MoE。

本次發(fā)布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款輕量級(jí) AI 模型,基于合成數(shù)據(jù)和經(jīng)過過濾的公開網(wǎng)站構(gòu)建,上下文窗口為 128K,所有模型現(xiàn)在都可以在 Hugging Face 上以 MIT 許可的方式獲取。IT之家附上相關(guān)介紹如下:

Phi-3.5-MoE:首個(gè)混合專家模型

Phi-3.5-MoE 是 Phi 系列中首個(gè)利用混合專家(MoE)技術(shù)的模型。該模型在 16 x 3.8B MoE 模型使用 2 個(gè)專家僅激活了 66 億個(gè)參數(shù),并使用 512 個(gè) H100 在 4.9T 標(biāo)記上進(jìn)行了訓(xùn)練。

微軟研究團(tuán)隊(duì)從零開始設(shè)計(jì)該模型,以進(jìn)一步提高其性能。在標(biāo)準(zhǔn)人工智能基準(zhǔn)測試中,Phi-3.5-MoE 的性能超過了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash,并接近目前的領(lǐng)先者 GPT-4o-mini。

Phi-3.5-vision:增強(qiáng)型多幀圖像理解

Phi-3.5-vision 共有 42 億個(gè)參數(shù),使用 256 個(gè) A100 GPU 在 500B 標(biāo)記上進(jìn)行訓(xùn)練,現(xiàn)在支持多幀圖像理解和推理。

Phi-3.5-vision 在 MMMU(從 40.2 提高到 43.0)、MMBench(從 80.5 提高到 81.9)和文檔理解基準(zhǔn) TextVQA(從 70.9 提高到 72.0)上的性能均有提高。

Phi-3.5-mini:輕量級(jí)、強(qiáng)功能

Phi-3.5-mini 是一個(gè) 38 億參數(shù)模型,超過了 Llama3.1 8B 和 Mistral 7B,甚至可媲美 Mistral NeMo 12B。

該模型使用 512 個(gè) H100 在 3.4T 標(biāo)記上進(jìn)行了訓(xùn)練。該模型僅有 3.8B 個(gè)有效參數(shù),與擁有更多有效參數(shù)的 LLMs 相比,在多語言任務(wù)中具有很強(qiáng)的競爭力。

此外,Phi-3.5-mini 現(xiàn)在支持 128K 上下文窗口,而其主要競爭對(duì)手 Gemma-2 系列僅支持 8K。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 要知 魔方 軟媒手機(jī)APP應(yīng)用