IT之家 1 月 24 日消息,非營利組織“人工智能安全中心”(CAIS)與提供數(shù)據(jù)標注和 AI 開發(fā)服務的公司 Scale AI 聯(lián)合推出了一個名為“人類終極考試”(Humanity's Last Exam)的新型基準測試,旨在評估前沿 AI 系統(tǒng)的綜合能力。這一測試因其極高的難度引起關注。
據(jù)IT之家了解,該基準測試包含來自 50 個國家 / 地區(qū) 500 多個機構的近 1,000 名學科專家撰稿人提出問題,這些專家主要由教授、研究人員和研究生學位持有者組成,涵蓋數(shù)學、人文學科和自然科學等多個領域。為增加測試的挑戰(zhàn)性,題目形式多樣,包括結合圖表和圖像的復雜題型。這種設計旨在全面考察 AI 系統(tǒng)在跨學科知識和多模態(tài)信息處理方面的能力。
在初步研究中,所有公開可用的旗艦 AI 系統(tǒng)在該測試中的回答準確率均未超過 10%。這一結果表明,盡管當前 AI 技術在特定領域已取得顯著進展,但在應對復雜、綜合性的問題時仍存在明顯短板。
CAIS 和 Scale AI 表示,他們計劃將這一基準測試向研究社區(qū)開放,以便研究人員能夠“深入挖掘差異”并評估新開發(fā)的 AI 模型。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。