號稱“地球上最聰明的人工智能”，馬斯克的 Grok 3 竟答不對 9.11 和 9.9 哪個大

2025/2/19 12:07:06 來源：IT之家作者：遠洋責編：遠洋

評論：

感謝IT之家網(wǎng)友有鯽雪狐、朱丶工作室的線索投遞！

IT之家 2 月 19 日消息，昨天馬斯克及其 xAI 團隊在直播中正式發(fā)布了 Grok 3，此前馬斯克通過持續(xù)的預熱宣傳，將外界對 Grok3 的期待值推向了前所未有的高度。馬斯克稱 Grok 3 為“地球上最聰明的人工智能”，然而其實際表現(xiàn)似乎對不起這個名號。

IT之家注意到，在發(fā)布會上，馬斯克宣稱 Grok 3 在數(shù)學、科學與編程的基準測試中超越了所有主流模型，并計劃將其應用于 SpaceX 的火星任務計算，甚至預測未來三年內將實現(xiàn)諾貝爾獎級別的突破。

但 Grok 3 的實際測試表現(xiàn)卻讓人大跌眼鏡。發(fā)布后，一些媒體測試了最新的 Beta 版 Grok 3，并提出了那個經典的用來刁難大模型的問題：“9.11 與 9.9 哪個大？”遺憾的是，號稱目前最聰明的 Grok 3，仍然無法正確回答這個問題，被網(wǎng)友戲稱為“天才不愿意回答簡單問題”。

號稱“地球上最聰明的人工智能”，馬斯克的 Grok 3 竟答不對 9.11 和 9.9 哪個大

此外，在 xAI 發(fā)布會直播中，在分析游戲《流放之路 2》的職業(yè)與升華效果時，Grok 3 也給出了大量錯誤答案，并且馬斯克也沒有看出這些明顯的錯誤。

盡管在官方 PPT 中，Grok3 在大模型競技場 Chatbot Arena 中看似“遙遙領先”，但實際上其與 DeepSeek R1 和 GPT4.0 的差距僅為 1% 到 2%。

號稱“地球上最聰明的人工智能”，馬斯克的 Grok 3 竟答不對 9.11 和 9.9 哪個大

馬斯克在發(fā)布會上透露，Grok 3 使用了超過 20 萬張 H100 芯片，總訓練小時數(shù)達到兩億小時。作為對比，DeepSeek V3 僅使用 2000 張 H800 芯片訓練兩個月，其性能卻與 Grok 3 相差無幾。這表明，隨著模型規(guī)模的不斷擴大，性能提升的邊際效應已經顯現(xiàn)。

號稱“地球上最聰明的人工智能”，馬斯克的 Grok 3 竟答不對 9.11 和 9.9 哪個大

值得一提的是，馬斯克在社交媒體上表示，當前的 Grok 3 僅是測試版，完整版將在未來幾個月推出，并邀請用戶反饋使用問題。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：人工智能，馬斯克，Grok 3

號稱“地球上最聰明的人工智能”，馬斯克的 Grok 3 竟答不對 9.11 和 9.9 哪個大

相關文章