“人類終極考試”基準測試發(fā)布：頂級 AI 系統(tǒng)表現慘淡，回答準確率均未超 10%

2025/1/24 16:27:49 來源：IT之家作者：遠洋責編：遠洋

評論：

IT之家 1 月 24 日消息，非營利組織“人工智能安全中心”（CAIS）與提供數據標注和 AI 開發(fā)服務的公司 Scale AI 聯合推出了一個名為“人類終極考試”（Humanity's Last Exam）的新型基準測試，旨在評估前沿 AI 系統(tǒng)的綜合能力。這一測試因其極高的難度引起關注。

據IT之家了解，該基準測試包含來自 50 個國家 / 地區(qū) 500 多個機構的近 1,000 名學科專家撰稿人提出問題，這些專家主要由教授、研究人員和研究生學位持有者組成，涵蓋數學、人文學科和自然科學等多個領域。為增加測試的挑戰(zhàn)性，題目形式多樣，包括結合圖表和圖像的復雜題型。這種設計旨在全面考察 AI 系統(tǒng)在跨學科知識和多模態(tài)信息處理方面的能力。

在初步研究中，所有公開可用的旗艦 AI 系統(tǒng)在該測試中的回答準確率均未超過 10%。這一結果表明，盡管當前 AI 技術在特定領域已取得顯著進展，但在應對復雜、綜合性的問題時仍存在明顯短板。

“人類終極考試”基準測試發(fā)布：頂級 AI 系統(tǒng)表現慘淡，回答準確率均未超 10%

CAIS 和 Scale AI 表示，他們計劃將這一基準測試向研究社區(qū)開放，以便研究人員能夠“深入挖掘差異”并評估新開發(fā)的 AI 模型。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：人工智能，AI，基準測試

“人類終極考試”基準測試發(fā)布：頂級 AI 系統(tǒng)表現慘淡，回答準確率均未超 10%

相關文章

“人類終極考試”基準測試發(fā)布：頂級 AI 系統(tǒng)表現慘淡，回答準確率均未超 10%