首頁 > 智能時代>人工智能

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

量子位 2025/4/7 12:37:30 責編：汪淼

評論：

Meta 最新基礎模型 Llama 4 發(fā)布 36 小時后，評論區(qū)居然是這個畫風：

失望，非常失望
不知道他們后訓練怎么搞的，總之不太行
在 [各種測試] 中失敗
……

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

還被做成表情包調(diào)侃，總結(jié)起來就是一個“差評如潮”。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

具體來看，大家的抱怨主要集中在代碼能力。

最直觀的要數(shù)經(jīng)典“氛圍編程”小球反彈測試，小球直接穿過墻壁掉下去了。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

反映在榜單上，成績也相當割裂。

發(fā)布時的官方測評（LiveCodeBench）分數(shù)和在大模型競技場表現(xiàn)明明都很不錯。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

但到了各種第三方基準測試中，情況大多直接逆轉(zhuǎn)，排名末尾。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

讓人不由得懷疑，這個競技場排名到底是數(shù)據(jù)過擬合，還是刷票了。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

就在 Llama 4 即將發(fā)布前幾天，Meta AI 研究主管 Joelle Pineau 在工作 8 年之后突然宣布離職，總之就是不太妙。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

Llama 4 怎么了?

大模型關注者們火熱實測吐槽之際，一則有關 Llama 4 的匿名爆料，突然引起軒然大波：

有網(wǎng)友稱自己已向 Meta GenAI 部門提交辭職，并要求不要署名在 Llama 4 的技術報告上。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

原貼發(fā)布在海外留學求職交流平臺一畝三分地，在國內(nèi)也引起很多討論。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

此爆料尚未得到證實，但有人搬出 Meta GenAI 負責人 Ahmad Al-Dahle 的帖子，至少能看出在 Llama 4 大模型競技場里運行的是特殊版本模型。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

還有 Meta 前員工借此話題貼出 2024 年 11 月的一項研究，指出從 Llama 1 開始數(shù)據(jù)泄露的問題就存在了。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

也不只是編程能力一個方面有問題，在 EQBench 測評基準的的長文章寫作榜中，Llama 4 系列也直接墊底。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

榜單維護者_sqrkl 說明了具體情況。

測試非常簡單，模型需要先完成一個短篇小說的頭腦風暴、反思并修改寫作計劃，最終每輪寫 1000 字，重復 8 輪以上。

由 Claude-Sonnet 3.7 來當裁判，先對每個章節(jié)單獨打分，再對整個作品打分。

Llama 4 的低分表現(xiàn)在寫到后面開始大段的內(nèi)容重復，以及寫作非常公式化。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

對此結(jié)果，有一個猜想是之前的版權訴訟讓 Meta 刪除了網(wǎng)絡和書籍數(shù)據(jù)，使用了更多的合成數(shù)據(jù)。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

在這場訴訟中，許多作家發(fā)現(xiàn)自己的作品可能被用于 AI 訓練，還到倫敦的 Meta 辦公室附近發(fā)起抗議。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

Llama 4 發(fā)布后的種種，讓人聯(lián)想到年初的匿名員工爆料，有網(wǎng)友表示當初只是隨便看看，現(xiàn)在卻開始相信了：

在這條爆料中，Deepseek V3 出來之后，訓練中的 Llama4 就顯得落后了，中層管理的薪水都比 DeepSeek V3 的訓練成本都高，Meta 內(nèi)部陷入恐慌模式。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

讓人不由得感嘆，DeepSeek-R1 橫空出世僅僅兩個月時間，卻像過了幾輩子。

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

參考鏈接：

[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[3]https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨，原標題《Llama 4 發(fā)布 36 小時差評如潮！匿名員工爆料拒絕署名技術報告》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：Llama 4

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告

Llama 4 怎么了?

相關文章

Meta Llama 4 發(fā)布 36 小時“差評如潮”，匿名員工爆料拒絕署名技術報告