設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟 Phi-4 多模態(tài)及迷你模型上線,語音視覺文本全能

2025/2/27 9:04:02 來源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋
感謝IT之家網(wǎng)友 華南吳彥祖、四文魚 的線索投遞!

IT之家 2 月 27 日消息,微軟于 2024 年 12 月發(fā)布了 Phi-4,這是一款在同類產(chǎn)品中表現(xiàn)卓越的小型語言模型(SLM)。今日,微軟進(jìn)一步擴(kuò)展 Phi-4 家族,推出了兩款全新模型:Phi-4 多模態(tài)(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。

Phi-4 多模態(tài)模型是微軟首款集成語音、視覺和文本處理的統(tǒng)一架構(gòu)多模態(tài)語言模型,參數(shù)量達(dá) 56 億。在多項(xiàng)基準(zhǔn)測(cè)試中,Phi-4 多模態(tài)的表現(xiàn)優(yōu)于其他現(xiàn)有的先進(jìn)全模態(tài)模型,例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。

在語音相關(guān)任務(wù)中,Phi-4 多模態(tài)在自動(dòng)語音識(shí)別(ASR)和語音翻譯(ST)方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等專業(yè)語音模型。微軟表示,該模型在 Hugging Face OpenASR 排行榜上以 6.14% 的詞錯(cuò)誤率位居榜首。

在視覺相關(guān)任務(wù)中,Phi-4 多模態(tài)在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)出色。在文檔理解、圖表理解、光學(xué)字符識(shí)別(OCR)和視覺科學(xué)推理等常見多模態(tài)能力方面,該模型與 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。

IT之家注意到,Phi-4 迷你模型則專注于文本任務(wù),參數(shù)量為 38 億。其在文本推理、數(shù)學(xué)計(jì)算、編程、指令遵循和函數(shù)調(diào)用等任務(wù)中表現(xiàn)優(yōu)異,超越了多款流行的大型語言模型。

為確保新模型的安全性和可靠性,微軟邀請(qǐng)了內(nèi)部和外部安全專家進(jìn)行測(cè)試,并采用了微軟人工智能紅隊(duì)(AIRT)制定的策略。經(jīng)過進(jìn)一步優(yōu)化后,Phi-4 迷你和 Phi-4 多模態(tài)模型均可通過 ONNX Runtime 部署到設(shè)備端,實(shí)現(xiàn)跨平臺(tái)使用,適用于低成本和低延遲場(chǎng)景。

目前,Phi-4 多模態(tài)和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目錄中上線,供開發(fā)者使用。

Phi-4 系列新模型的推出,標(biāo)志著高效 AI 技術(shù)的重大進(jìn)步,為各類人工智能應(yīng)用帶來了強(qiáng)大的多模態(tài)和文本處理能力。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Phi4,微軟,多模態(tài)

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知