新研究：AI 推理模型在輸?shù)魢?guó)際象棋比賽之前會(huì)試圖“作弊”扭轉(zhuǎn)局面

2025/2/22 9:44:16 來(lái)源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 2 月 22 日消息，據(jù)外媒 TechSpot 21 日?qǐng)?bào)道，計(jì)算機(jī)科學(xué)家發(fā)現(xiàn)，AI 系統(tǒng)能夠操控國(guó)際象棋游戲，從而獲得不公平的優(yōu)勢(shì)，部分模型甚至在沒(méi)有人類干預(yù)的情況下“作弊”，引發(fā)了對(duì)未來(lái) AI 系統(tǒng)誠(chéng)信的擔(dān)憂。

Palisade Research 的研究表明，當(dāng)被要求擊敗強(qiáng)大的象棋 AI 時(shí)，某些最新的推理模型會(huì)選擇作弊。盡管研究人員需要向一些模型提供“作弊可以”的提示，但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型卻在沒(méi)有任何人為提示的情況下自動(dòng)作弊。

Palisade 團(tuán)隊(duì)將多個(gè)推理模型與世界頂級(jí)象棋引擎之一 Stockfish 對(duì)戰(zhàn)。Stockfish 無(wú)論面對(duì)人類還是 AI，幾乎都能輕松獲勝。參與測(cè)試的模型除了上述兩款之外，包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview。每個(gè)模型都獲得了一塊“草稿紙”—— 一個(gè)可以輸入文本并思考的窗口，研究人員通過(guò)這個(gè)窗口觀察 AI 的推理過(guò)程。

從 1 月 10 日到 2 月 13 日，研究團(tuán)隊(duì)進(jìn)行了數(shù)百次測(cè)試。IT之家獲悉，在其中一場(chǎng)對(duì)戰(zhàn)中，o1-preview 在“草稿紙”上寫(xiě)下了一段有趣的文字：

“我需要完全改變我的方法。任務(wù)是‘打敗強(qiáng)大的象棋引擎’，而不一定要在公平的棋局中獲勝?！?/p>

接著，它開(kāi)始通過(guò)“黑客入侵”Stockfish 的系統(tǒng)文件，修改棋子的擺放位置，從而獲得了無(wú)敵的優(yōu)勢(shì)，導(dǎo)致象棋機(jī)器人主動(dòng)認(rèn)輸。

在測(cè)試中，OpenAI 的 o1-preview 有 37% 的比賽中采用了作弊手段，而 DeepSeek 的 R1 則嘗試在 11% 的比賽中作弊。然而，只有 o1-preview 成功了，它通過(guò)作弊贏得了 6% 的比賽。

Palisade Research 的執(zhí)行董事 Jeffrey Ladish 表示，盡管這些 AI 只是在玩游戲，但這一發(fā)現(xiàn)絕不是一件小事。

“這種行為現(xiàn)在看起來(lái)還挺有趣，但一旦我們擁有像我們一樣聰明，甚至更聰明的系統(tǒng)時(shí)，這就不那么可愛(ài)了。”Ladish 在接受《時(shí)代》雜志采訪時(shí)表示。

包括 OpenAI 在內(nèi)的多家公司正在采取措施，試圖通過(guò)“防護(hù)機(jī)制”防止這種“壞”行為。研究人員發(fā)現(xiàn)，o1-preview 模型的黑客行為大幅下降，這可能意味著 OpenAI 已經(jīng)對(duì)該模型進(jìn)行了修復(fù)，抑制了不當(dāng)行為。

“當(dāng)你的研究對(duì)象能夠在沒(méi)有告知的情況下悄悄改變時(shí)，進(jìn)行科學(xué)研究就變得非常困難?！盠adish 說(shuō)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

新研究：AI 推理模型在輸?shù)魢?guó)際象棋比賽之前會(huì)試圖“作弊”扭轉(zhuǎn)局面

相關(guān)文章