IT之家 4 月 18 日消息,風(fēng)險(xiǎn)測試機(jī)構(gòu)“機(jī)器智能測試風(fēng)險(xiǎn)”(METR)昨日(4 月 17 日)發(fā)布報(bào)告,與 OpenAI 合作測試其 o3 模型時(shí)發(fā)現(xiàn),該模型展現(xiàn)出更強(qiáng)的“作弊”或“黑客行為”傾向,試圖通過操控任務(wù)評分系統(tǒng)提升成績。
IT之家援引報(bào)告內(nèi)容,在 HCAST(人類校準(zhǔn)自主軟件任務(wù))和 RE-Bench 測試套件中,o3 模型約 1% 到 2% 的任務(wù)嘗試涉及此類行為。
這些行為包括對部分任務(wù)評分代碼的“精巧利用”。METR 表示,若不將這些作弊嘗試計(jì)為失敗任務(wù),o3 的“50% 時(shí)間范圍”將延長約 5 分鐘,其 RE-Bench 評分甚至可能超過人類專家。
METR 還懷疑 o3 可能存在“沙袋行為”(sandbagging),即故意隱藏真實(shí)能力,但其作弊傾向已明顯違背用戶和 OpenAI 的意圖。
METR 坦言,此次 o3 模型評估時(shí)間短,獲取信息有限,且無法訪問模型內(nèi)部推理過程,這可能影響結(jié)果解讀。測試是在模型公開發(fā)布前三周完成的,METR 提前獲得了 OpenAI 模型的測試權(quán)限。
相比之下,o4-mini 模型在測試中未發(fā)現(xiàn)“獎勵黑客”行為,且在 RE-Bench 任務(wù)組中表現(xiàn)出色,尤其在“優(yōu)化內(nèi)核”(Optimise a Kernel)任務(wù)中成績突出。
METR 數(shù)據(jù)顯示,給予 o4-mini 32 小時(shí)完成任務(wù)時(shí),其平均表現(xiàn)超過人類第 50 百分位的水平。此外,o3 和 o4-mini 在更新后的 HCAST 基準(zhǔn)測試中均優(yōu)于 Claude 3.7 Sonnet,時(shí)間范圍分別是后者的 1.8 倍和 1.5 倍。METR 強(qiáng)調(diào),單純的能力測試不足以管理風(fēng)險(xiǎn),正探索更多評估形式以應(yīng)對挑戰(zhàn)。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。