IT之家 2 月 1 日消息,科技媒體 marktechpost 昨日(1 月 31 日)發(fā)布博文,報道稱 Mistral AI 發(fā)布了 Small 3(全稱為 Mistral-Small-24B-Instruct-2501)模型,共有 240 億參數(shù),實現(xiàn)了先進的推理能力、多語言支持和便捷的應(yīng)用集成,并在多個基準(zhǔn)測試中取得了令人矚目的成績。
該模型基于 Apache 2.0 許可證發(fā)布,允許開發(fā)者自由修改、部署和集成到各種應(yīng)用程序中,對標(biāo) Meta 的 Llama 3.3 70B 和阿里巴巴的 Qwen 32B 等更大模型,官方聲稱在相同硬件上,提供超過三倍的性能。
Small 3 模型針對本地部署進行高效優(yōu)化,在 RTX 4090 GPU 或配備 32GB RAM 的筆記本電腦上也能通過量化技術(shù)流暢運行。
模型在多樣化的指令型任務(wù)上進行了微調(diào),實現(xiàn)了高級推理、多語言能力和無縫應(yīng)用集成,憑借 32k 的上下文窗口,它擅長處理長篇輸入,同時保持高響應(yīng)速度。
該模型還包含 JSON 格式輸出和原生函數(shù)調(diào)用等功能,使其非常適合對話和特定任務(wù)的實現(xiàn)。
Mistral-Small 模型在多個基準(zhǔn)測試中表現(xiàn)出色,在特定任務(wù)中甚至可以媲美或超越 Llama 3.3-70B 和 GPT-4o-mini 等更大規(guī)模的模型。
它在推理、多語言處理和代碼基準(zhǔn)測試中都達到了很高的準(zhǔn)確率,例如在 HumanEval 上達到 84.8%,在數(shù)學(xué)任務(wù)上達到 70.6%,在 MMLU 基準(zhǔn)測試中準(zhǔn)確率超過 81%,每秒可處理高達 150 個 token。IT之家附上性能相關(guān)圖片如下:
Mistral Small 3 針對以下應(yīng)用進行了優(yōu)化:
對話式 AI:需要快速響應(yīng)時間的虛擬助手。
低延遲自動化:工作流程或機器人技術(shù)中的功能執(zhí)行。
特定領(lǐng)域?qū)I(yè)知識:針對醫(yī)療診斷或法律咨詢等專業(yè)領(lǐng)域進行微調(diào)。
本地推理:為處理敏感數(shù)據(jù)的組織提供安全部署。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。