Meta 開源大模型 Llama-4-Maverick 基準(zhǔn)測(cè)試排名暴跌，此前被質(zhì)疑刷榜作弊

2025/4/14 15:07:43 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

IT之家 4 月 14 日消息，LMArena 更新了 Meta 最新發(fā)布的開源大模型 Llama-4-Maverick 的排名，其從此前的第 2 名直線下降至第 32 名。這證實(shí)了此前開發(fā)者對(duì) Meta 為刷榜向 LMArena 提供“特供版”Llama 4 大模型的質(zhì)疑。

4 月 6 日，Meta 發(fā)布了最新的大模型 Llama 4，包含 Scout、Maverick 和 Behemoth 三個(gè)版本。其中，Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二，僅次于 Gemini 2.5 Pro。然而，隨著開發(fā)者實(shí)際使用 Llama 4 大模型開源版的效果陸續(xù)曝光，Llama 4 的口碑急轉(zhuǎn)直下。有開發(fā)者發(fā)現(xiàn) Meta 提供給 LMArena 的 Llama 4 版本與提交給社區(qū)的開源版本不同，因而質(zhì)疑 Meta 刷榜作弊。

Meta 開源大模型 Llama-4-Maverick 基準(zhǔn)測(cè)試排名暴跌，此前被質(zhì)疑刷榜作弊

4 月 8 日，Chatbot Arena 官方發(fā)文確認(rèn)了用戶的上述質(zhì)疑，公開表示 Meta 提供給他們的是“特供版”，并考慮更新排行榜。根據(jù) Chatbot Arena 官方消息，Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一個(gè)實(shí)驗(yàn)性聊天優(yōu)化版本，當(dāng)時(shí)該版本的排名為第二。修正后的模型為 HuggingFace 開源版同款 Llama-4-Maverick-17B-128E-Instruct，是 17B 激活參數(shù)、128 個(gè) MoE 專家的指令微調(diào)模型。

IT之家注意到，目前開源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名為 32 名，遠(yuǎn)低于 Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），甚至連英偉達(dá)基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 為何表現(xiàn)不佳？該公司在上周六發(fā)布的一張圖表中解釋稱，該模型是“針對(duì)對(duì)話性進(jìn)行優(yōu)化”的。這些優(yōu)化顯然在 LM Arena 上取得了不錯(cuò)的效果，因?yàn)?LM Arena 的人類評(píng)分者會(huì)比較不同模型的輸出，并選擇他們更偏好的結(jié)果。

由于各種原因，LM Arena 從未被視為衡量 AI 模型性能的最可靠指標(biāo)。盡管如此，針對(duì)基準(zhǔn)測(cè)試調(diào)整模型不僅具有誤導(dǎo)性，還使得開發(fā)者難以準(zhǔn)確預(yù)測(cè)該模型在不同場(chǎng)景下的表現(xiàn)。

Meta 的一位發(fā)言人向 TechCrunch 表示，Meta 會(huì)嘗試“各種類型的定制變體”。“‘Llama-4-Maverick-03-26-Experimental’是我們嘗試的一個(gè)針對(duì)聊天優(yōu)化的版本，它在 LM Arena 上也表現(xiàn)不錯(cuò)，”該發(fā)言人說，“我們現(xiàn)在已發(fā)布了開源版本，將看看開發(fā)者如何根據(jù)自己的使用案例定制 Llama 4。我們期待看到他們構(gòu)建的內(nèi)容，并期待他們持續(xù)的反饋?！?/p>

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Meta 開源大模型 Llama-4-Maverick 基準(zhǔn)測(cè)試排名暴跌，此前被質(zhì)疑刷榜作弊

相關(guān)文章