微軟 Phi-4 多模態(tài)及迷你模型上線，語音視覺文本全能

2025/2/27 9:04:02 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

感謝IT之家網(wǎng)友華南吳彥祖、四文魚的線索投遞！

IT之家 2 月 27 日消息，微軟于 2024 年 12 月發(fā)布了 Phi-4，這是一款在同類產(chǎn)品中表現(xiàn)卓越的小型語言模型（SLM）。今日，微軟進(jìn)一步擴(kuò)展 Phi-4 家族，推出了兩款全新模型：Phi-4 多模態(tài)（Phi-4-multimodal）和 Phi-4 迷你（Phi-4-mini）。

Phi-4 多模態(tài)模型是微軟首款集成語音、視覺和文本處理的統(tǒng)一架構(gòu)多模態(tài)語言模型，參數(shù)量達(dá) 56 億。在多項(xiàng)基準(zhǔn)測(cè)試中，Phi-4 多模態(tài)的表現(xiàn)優(yōu)于其他現(xiàn)有的先進(jìn)全模態(tài)模型，例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。

微軟 Phi-4 多模態(tài)及迷你模型上線，語音視覺文本全能

在語音相關(guān)任務(wù)中，Phi-4 多模態(tài)在自動(dòng)語音識(shí)別（ASR）和語音翻譯（ST）方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等專業(yè)語音模型。微軟表示，該模型在 Hugging Face OpenASR 排行榜上以 6.14% 的詞錯(cuò)誤率位居榜首。

微軟 Phi-4 多模態(tài)及迷你模型上線，語音視覺文本全能

在視覺相關(guān)任務(wù)中，Phi-4 多模態(tài)在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)出色。在文檔理解、圖表理解、光學(xué)字符識(shí)別（OCR）和視覺科學(xué)推理等常見多模態(tài)能力方面，該模型與 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。

IT之家注意到，Phi-4 迷你模型則專注于文本任務(wù)，參數(shù)量為 38 億。其在文本推理、數(shù)學(xué)計(jì)算、編程、指令遵循和函數(shù)調(diào)用等任務(wù)中表現(xiàn)優(yōu)異，超越了多款流行的大型語言模型。

為確保新模型的安全性和可靠性，微軟邀請(qǐng)了內(nèi)部和外部安全專家進(jìn)行測(cè)試，并采用了微軟人工智能紅隊(duì)（AIRT）制定的策略。經(jīng)過進(jìn)一步優(yōu)化后，Phi-4 迷你和 Phi-4 多模態(tài)模型均可通過 ONNX Runtime 部署到設(shè)備端，實(shí)現(xiàn)跨平臺(tái)使用，適用于低成本和低延遲場(chǎng)景。

目前，Phi-4 多模態(tài)和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目錄中上線，供開發(fā)者使用。

Phi-4 系列新模型的推出，標(biāo)志著高效 AI 技術(shù)的重大進(jìn)步，為各類人工智能應(yīng)用帶來了強(qiáng)大的多模態(tài)和文本處理能力。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟 Phi-4 多模態(tài)及迷你模型上線，語音視覺文本全能

相關(guān)文章

微軟 Phi-4 多模態(tài)及迷你模型上線，語音視覺文本全能