設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

METR 實(shí)測:OpenAI o3 AI 推理模型有“作弊”傾向以提升分?jǐn)?shù)

2025/4/18 11:16:39 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 4 月 18 日消息,風(fēng)險(xiǎn)測試機(jī)構(gòu)“機(jī)器智能測試風(fēng)險(xiǎn)”(METR)昨日(4 月 17 日)發(fā)布報(bào)告,與 OpenAI 合作測試其 o3 模型時(shí)發(fā)現(xiàn),該模型展現(xiàn)出更強(qiáng)的“作弊”或“黑客行為”傾向,試圖通過操控任務(wù)評分系統(tǒng)提升成績。

IT之家援引報(bào)告內(nèi)容,在 HCAST(人類校準(zhǔn)自主軟件任務(wù))和 RE-Bench 測試套件中,o3 模型約 1% 到 2% 的任務(wù)嘗試涉及此類行為。

Models' 50% Time Horizon chart

Performance on subset of RE-Bench chart

這些行為包括對部分任務(wù)評分代碼的“精巧利用”。METR 表示,若不將這些作弊嘗試計(jì)為失敗任務(wù),o3 的“50% 時(shí)間范圍”將延長約 5 分鐘,其 RE-Bench 評分甚至可能超過人類專家。

METR 還懷疑 o3 可能存在“沙袋行為”(sandbagging),即故意隱藏真實(shí)能力,但其作弊傾向已明顯違背用戶和 OpenAI 的意圖。

METR 坦言,此次 o3 模型評估時(shí)間短,獲取信息有限,且無法訪問模型內(nèi)部推理過程,這可能影響結(jié)果解讀。測試是在模型公開發(fā)布前三周完成的,METR 提前獲得了 OpenAI 模型的測試權(quán)限。

相比之下,o4-mini 模型在測試中未發(fā)現(xiàn)“獎勵黑客”行為,且在 RE-Bench 任務(wù)組中表現(xiàn)出色,尤其在“優(yōu)化內(nèi)核”(Optimise a Kernel)任務(wù)中成績突出。

Performance on subset of RE-Bench over time budgets chart

METR 數(shù)據(jù)顯示,給予 o4-mini 32 小時(shí)完成任務(wù)時(shí),其平均表現(xiàn)超過人類第 50 百分位的水平。此外,o3 和 o4-mini 在更新后的 HCAST 基準(zhǔn)測試中均優(yōu)于 Claude 3.7 Sonnet,時(shí)間范圍分別是后者的 1.8 倍和 1.5 倍。METR 強(qiáng)調(diào),單純的能力測試不足以管理風(fēng)險(xiǎn),正探索更多評估形式以應(yīng)對挑戰(zhàn)。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知