OpenAI o3 模型基準測試成績遭質疑，實測分數(shù)遠不及宣稱

2025/4/21 7:24:55 來源：IT之家作者：遠洋責編：遠洋

評論：

IT之家 4 月 21 日消息，OpenAI 的 o3 人工智能模型的第一方與第三方基準測試結果存在顯著差異，引發(fā)了外界對其公司透明度和模型測試實踐的質疑。

去年 12 月，OpenAI 首次發(fā)布 o3 模型時宣稱，該模型能夠在 FrontierMath 這一極具挑戰(zhàn)性的數(shù)學問題集上正確回答超過四分之一的問題。這一成績遠遠超過了競爭對手 —— 排名第二的模型僅能正確回答約 2% 的 FrontierMath 問題。OpenAI 首席研究官 Mark Chen 在直播中表示：“目前市場上所有其他產(chǎn)品在 FrontierMath 上的成績都不足 2%，而我們在內(nèi)部測試中，使用 o3 模型在激進的測試時計算設置下，能夠達到超過 25% 的正確率?！?/p>

然而，這一高分似乎是一個上限值，是通過一個計算資源更為強大的 o3 模型版本實現(xiàn)的，而并非是 OpenAI 上周公開發(fā)布的版本。負責 FrontierMath 的 Epoch 研究所于上周五公布了其對 o3 模型的獨立基準測試結果，發(fā)現(xiàn) o3 的得分僅為約 10%，遠低于 OpenAI 此前聲稱的最高分數(shù)。

OpenAI o3 模型基準測試成績遭質疑，實測分數(shù)遠不及宣稱

這并不意味著 OpenAI 故意撒謊，該公司在 12 月份公布的基準測試結果中也包含了一個與 Epoch 測試結果相符的較低分數(shù)。Epoch 還指出，其測試設置可能與 OpenAI 有所不同，并且其評估使用了更新版本的 FrontierMath。Epoch 在報告中寫道：“我們與 OpenAI 的結果差異可能是因為 OpenAI 在內(nèi)部評估時使用了更強大的計算框架、更多的測試時計算資源，或者是因為這些結果是在 FrontierMath 的不同子集上運行的（例如 2024 年 11 月 26 日版本的 180 個問題與 2025 年 2 月 28 日私有版本的 290 個問題）?！?/p>

此外，ARC Prize 基金會（一個測試了 o3 預發(fā)布版本的組織）在 X 平臺上發(fā)布消息表示，公開發(fā)布的 o3 模型是一個“針對聊天 / 產(chǎn)品使用進行了調(diào)整的不同模型”，這進一步證實了 Epoch 的報告。ARC Prize 還指出：“所有發(fā)布的 o3 計算層級都比我們測試的版本要小?！币话銇碚f，更大的計算層級通常可以獲得更好的基準測試分數(shù)。

值得注意的是，盡管公開版本的 o3 未能完全達到 OpenAI 測試時的表現(xiàn)，但這在一定程度上已不再是關鍵問題，因為該公司后續(xù)推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表現(xiàn)已經(jīng)優(yōu)于 o3。此外，OpenAI 計劃在未來幾周內(nèi)推出更強大的 o3 版本 o3-pro。

然而，此事再次提醒人們，人工智能基準測試結果最好不要完全照單全收，尤其是當結果來自一家有產(chǎn)品需要銷售的公司時。隨著人工智能行業(yè)競爭的加劇，各供應商紛紛急于通過推出新模型來吸引眼球和市場份額，基準測試“爭議”正變得越來越常見。

IT之家注意到，今年 1 月，Epoch 因在 OpenAI 宣布 o3 之后才披露其從 OpenAI 獲得的資金支持而受到批評。許多為 FrontierMath 做出貢獻的學者直到公開時才知道 OpenAI 的參與。最近，埃隆?馬斯克的 xAI 被指控為其最新的人工智能模型 Grok 3 發(fā)布了誤導性的基準測試圖表。就在本月，Meta 也承認其宣傳的基準測試分數(shù)所基于的模型版本與提供給開發(fā)者的版本不一致。

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：OpenAI，AI，人工智能

OpenAI o3 模型基準測試成績遭質疑，實測分數(shù)遠不及宣稱

相關文章

OpenAI o3 模型基準測試成績遭質疑，實測分數(shù)遠不及宣稱