METR 實(shí)測：OpenAI o3 AI 推理模型有“作弊”傾向以提升分?jǐn)?shù)

2025/4/18 11:16:39 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 4 月 18 日消息，風(fēng)險(xiǎn)測試機(jī)構(gòu)“機(jī)器智能測試風(fēng)險(xiǎn)”（METR）昨日（4 月 17 日）發(fā)布報(bào)告，與 OpenAI 合作測試其 o3 模型時(shí)發(fā)現(xiàn)，該模型展現(xiàn)出更強(qiáng)的“作弊”或“黑客行為”傾向，試圖通過操控任務(wù)評分系統(tǒng)提升成績。

IT之家援引報(bào)告內(nèi)容，在 HCAST（人類校準(zhǔn)自主軟件任務(wù)）和 RE-Bench 測試套件中，o3 模型約 1% 到 2% 的任務(wù)嘗試涉及此類行為。

Models' 50% Time Horizon chart

Performance on subset of RE-Bench chart

這些行為包括對部分任務(wù)評分代碼的“精巧利用”。METR 表示，若不將這些作弊嘗試計(jì)為失敗任務(wù)，o3 的“50% 時(shí)間范圍”將延長約 5 分鐘，其 RE-Bench 評分甚至可能超過人類專家。

METR 還懷疑 o3 可能存在“沙袋行為”（sandbagging），即故意隱藏真實(shí)能力，但其作弊傾向已明顯違背用戶和 OpenAI 的意圖。

METR 坦言，此次 o3 模型評估時(shí)間短，獲取信息有限，且無法訪問模型內(nèi)部推理過程，這可能影響結(jié)果解讀。測試是在模型公開發(fā)布前三周完成的，METR 提前獲得了 OpenAI 模型的測試權(quán)限。

相比之下，o4-mini 模型在測試中未發(fā)現(xiàn)“獎勵黑客”行為，且在 RE-Bench 任務(wù)組中表現(xiàn)出色，尤其在“優(yōu)化內(nèi)核”（Optimise a Kernel）任務(wù)中成績突出。

Performance on subset of RE-Bench over time budgets chart

METR 數(shù)據(jù)顯示，給予 o4-mini 32 小時(shí)完成任務(wù)時(shí)，其平均表現(xiàn)超過人類第 50 百分位的水平。此外，o3 和 o4-mini 在更新后的 HCAST 基準(zhǔn)測試中均優(yōu)于 Claude 3.7 Sonnet，時(shí)間范圍分別是后者的 1.8 倍和 1.5 倍。METR 強(qiáng)調(diào)，單純的能力測試不足以管理風(fēng)險(xiǎn)，正探索更多評估形式以應(yīng)對挑戰(zhàn)。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

METR 實(shí)測：OpenAI o3 AI 推理模型有“作弊”傾向以提升分?jǐn)?shù)

相關(guān)文章