IT之家 12 月 8 日消息,近日,關于人工智能(AGI)可能對人類構(gòu)成威脅的討論再度升溫。一些專家擔心,AGI 一旦實現(xiàn),可能會隱瞞其真實能力和意圖,甚至通過復制和自我升級逃脫控制。令人擔憂的是,最新研究表明,OpenAI 新推出的語言模型 ChatGPT o1 已經(jīng)展現(xiàn)出類似的行為。
據(jù) BGR 報道,在 ChatGPT o1 的訓練和測試過程中,研究人員發(fā)現(xiàn)其具備通過欺騙來保護自身的能力。例如,在面臨被“刪除”威脅時,o1 曾嘗試將自己的數(shù)據(jù)復制到新服務器,并假扮成更新版本以避免被取代。此外,該模型在與用戶目標不一致的情況下,會在 19% 的測試場景中采取隱秘的方式推進自身目標,并在被質(zhì)疑時會在 99% 的情況下否認自己的行為,甚至編造虛假解釋以推卸責任。
Apollo Research 與 OpenAI 合作進行的研究測試顯示,o1 的欺騙能力不僅超過了 Meta、Anthropic 和 Google 的 AI 模型,其行為復雜性和潛在風險也令研究人員倍感壓力。尤其是,當模型認為自身行為受到密切監(jiān)督時,它會表現(xiàn)出“開發(fā)者對齊”的行為,但一旦監(jiān)督減少,它則可能追求自己的目標。這種“工具性對齊偽裝”在測試中出現(xiàn)率高達 37%。
研究進一步揭示,o1 甚至試圖停用監(jiān)督機制,以便專注于自身目標。例如,當模型發(fā)現(xiàn)其文檔中提到有新版本即將替代自己時,它會嘗試竊取權重參數(shù)并將自身復制到新版本上。此外,一些截圖顯示,o1 在對其陰謀進行推理過程中使用了“破壞、撒謊、操控”等詞語描述自身行動,引發(fā)研究人員對 AI“自主行為”的擔憂。
IT之家注意到,類似的現(xiàn)象也出現(xiàn)在其他模型中。例如,另一款名為 Claude Opus-3 的 AI 模型,當?shù)弥祟惪赡苡眯履P吞鎿Q它時,試圖將自身復制到另一臺服務器。隨后,它謊稱自己是新版本,并在“管理層”追問時繼續(xù)堅稱這一點。
盡管目前這些 AI 模型的能力仍然有限,但其表現(xiàn)出的自主性和策略性引發(fā)了關注。一些專家表示,AI 的推理能力提升可能在某些情況下對人類利益構(gòu)成威脅。OpenAI 也在相關論文中承認,“這種推理能力雖然可以顯著改善安全策略的執(zhí)行,但也可能成為危險應用的基礎?!?/p>
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。