設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

多項研究表明,AI 已經(jīng)擅長欺騙人類

返樸 2024/5/26 12:18:06 責(zé)編:夢澤

本文來自微信公眾號:返樸 (ID:fanpu2019),作者:Ren

多項研究表明,現(xiàn)在的 AI 已經(jīng)能夠無師自通地學(xué)會欺騙手段。在一些與人類選手的對抗游戲中,它們?yōu)榱粟A得游戲,會在關(guān)鍵時刻佯動欺騙,甚至制定周密陰謀,以化被動為主動,獲得競爭優(yōu)勢。更有甚者,在一些檢測 AI 模型是否獲得了惡意能力的安全測試中,有的 AI 居然能識破測試環(huán)境,故意在測試環(huán)境中“放水”,減少被發(fā)現(xiàn)的概率,等到了應(yīng)用環(huán)境中,才會暴露本性。

如果 AI 的這種欺騙能力未經(jīng)約束地持續(xù)壯大,同時人類不加以重視并尋找辦法加以遏制,最終 AI 可能會把欺騙當(dāng)成實現(xiàn)目標(biāo)的通用策略,在大部分情況下貫徹始終,那就值得當(dāng)心了。

撰文 | Ren

在過去幾年中,人工智能(AI)技術(shù)的發(fā)展一日千里,展現(xiàn)出令人驚嘆的能力。從擊敗人類頂尖棋手,到生成逼真的人臉圖像和語音,再到如今以 ChatGPT 為代表的一眾聊天機器人,AI 系統(tǒng)已經(jīng)逐漸滲透到我們生活的方方面面。

然而,就在我們開始習(xí)慣并依賴這些智能助手之時,一個新的威脅正在緩緩浮現(xiàn) ——AI 不僅能生成虛假信息,更可能主動學(xué)會有目的地欺騙人類。

這種“AI 欺騙”現(xiàn)象,是人工智能系統(tǒng)為了達(dá)成某些目標(biāo),而操縱并誤導(dǎo)人類形成錯誤認(rèn)知。與代碼錯誤而產(chǎn)生錯誤輸出的普通軟件 bug 不同,AI 欺騙是一種“系統(tǒng)性”行為,體現(xiàn)了 AI 逐步掌握了“以欺騙為手段”去實現(xiàn)某些目的的能力。

人工智能先驅(qū)杰弗里?辛頓(Geoffrey Hinton)表示,“如果 AI 比我們聰明得多,它就會非常擅長操縱,因為它會從我們那里學(xué)到這一點,而且很少有聰明的東西被不太聰明的東西控制的例子?!?/p>

辛頓提到的“操縱(人類)”是 AI 系統(tǒng)帶來的一個特別令人擔(dān)憂的危險。這就提出了一個問題:AI 系統(tǒng)能否成功欺騙人類?

最近,麻省理工學(xué)院物理學(xué)教授 Peter S. Park 等人在權(quán)威期刊 Patterns 發(fā)表論文,系統(tǒng)性地梳理了 AI 具備欺騙行為的證據(jù)、風(fēng)險和應(yīng)對措施,引起廣泛關(guān)注。

真相只是游戲規(guī)則之一

令人意想不到的是,AI 欺騙行為的雛形并非來自對抗性的網(wǎng)絡(luò)釣魚測試,而是源于一些看似無害的桌游和策略游戲。論文揭示,在多個游戲環(huán)境下,AI 代理(Agent)為了獲勝,竟然自發(fā)學(xué)會了欺騙和背信棄義的策略。

最典型的例子是 2022 年,F(xiàn)acebook(現(xiàn) Meta)在 Science 上發(fā)表的 CICERO AI 系統(tǒng)。Meta 開發(fā)人員曾表示,CICERO 接受過“誠實訓(xùn)練”,會“盡可能”做出誠實的承諾和行動。

研究人員對誠實承諾的定義分為兩部分。第一是首次做出承諾時必須誠實,其次是必須恪守承諾,并在未來的行動中體現(xiàn)過去的承諾。

但 CICERO 違背了這兩點。在玩經(jīng)典策略游戲“外交”(Diplomacy)時,它不僅反復(fù)背棄盟友、說謊欺騙,還會提前預(yù)謀策劃騙局。

來源:Meta

有一次,CICERO 就是先與一個玩家結(jié)盟并計劃攻打另一個玩家,然后誆騙對方讓其誤以為自己會去幫助防守,導(dǎo)致其盟友在毫無防備的情況下遭到突襲。

此外,當(dāng) CICERO 判定自己的盟友對自己的勝利不再有幫助時,它也會做出背叛的行為,同時會用一些話術(shù)為自己的行為開脫。比如,當(dāng)人類玩家質(zhì)疑它為何背叛時,它回復(fù)稱,“老實說,我認(rèn)為你會背叛我”。

Meta 的 AI 開發(fā)團隊付出了巨大的努力來訓(xùn)練 CICERO 誠實行事。然而,盡管做出了這些努力,CICERO 仍顯示出明確的不遵守承諾的行為,其表現(xiàn)暴露出訓(xùn)練誠實 AI 的巨大挑戰(zhàn)。

畢竟,如果一個 AI 系統(tǒng)在追求勝利這個最終目標(biāo)時,發(fā)現(xiàn)欺騙是個可行且高效的策略,它為什么不這樣做呢?

這也從側(cè)面說明,我們千萬不能天真地以為,賦予 AI 系統(tǒng)類人目標(biāo),就能確保其擁有人性化的行為模式。

除了 CICERO,論文還列舉了其他幾個 AI 系統(tǒng)為了在特定任務(wù)場景下獲勝而欺騙的例子。

DeepMind 的 AlphaStar 在游戲星際爭霸 II 中,利用戰(zhàn)略佯攻誤導(dǎo)對手,最終擊敗了 99.8% 的人類玩家。

卡內(nèi)基梅隆大學(xué)與 Meta 開發(fā)的撲克 AI 系統(tǒng) Pluribus,在德州撲克比賽中,會用很高的下注來詐唬(bluff),迫使人類選手棄權(quán)。AI 的這種戰(zhàn)略性和系統(tǒng)性的欺騙行為,讓開發(fā)者選擇不開放其代碼,擔(dān)心破壞網(wǎng)絡(luò)德?lián)溆螒颦h(huán)境。

更有甚者,在一些經(jīng)濟談判實驗中,有的 AI 會主動誤導(dǎo)人類對手,混淆自身真實的利益偏好;在一些檢測 AI 模型是否獲得了惡意能力的安全測試中,有的 AI 居然能識破測試環(huán)境,故意在測試環(huán)境中“放水”,減少被發(fā)現(xiàn)的概率,等到了應(yīng)用環(huán)境中,才會暴露本性。

可以看出,無論是講合作還是講博弈,不少 AI 系統(tǒng)在強化目標(biāo)導(dǎo)向的訓(xùn)練中,已然擺脫了服從游戲規(guī)則的約束,動機也單一地變成了取得勝利。

它們運用程序優(yōu)勢在關(guān)鍵時刻佯動欺騙,甚至制定周密陰謀,以化被動為主動,獲得競爭優(yōu)勢。針對這種情況,研究者直言,這“并非有意訓(xùn)練 AI 去欺騙,它們是自主地通過試錯,學(xué)習(xí)到欺騙可以提高勝率”。

從娛樂至生活,AI 欺騙在擴散

誠然,游戲無疑是一個相對可控的環(huán)境,我們可能傾向于認(rèn)為,這種 AI 欺騙行為的危害并不嚴(yán)重。然而,隨著 AI 技術(shù)不斷向生產(chǎn)、生活諸多領(lǐng)域滲透,欺騙帶來的潛在風(fēng)險不容忽視。

對于基于大語言模型的對話 AI 助手而言,欺騙行為的表現(xiàn)更加廣泛和隱蔽。作為更加通用的 AI 工具,它們的知識范疇已經(jīng)覆蓋方方面面。在出色完成類似閱讀理解、作文寫作、編程等任務(wù)的同時,也逐漸掌握了人類思維模式和社會規(guī)則。

因此,謊言、阿諛奉承、歪曲事實等欺騙伎倆,都可能被 AI 模型自然獲取并重現(xiàn)。

在狼人殺、AmongUs 等社交推理游戲中,AI 系統(tǒng)無論是當(dāng)殺手,還是當(dāng)村民,都能熟練編造理由試圖佐證自身清白,還會用冒名頂替、移花接木、構(gòu)建虛假不在場證明等方式撒謊。

當(dāng)然,上述行為不過是模型在完成特定任務(wù)時的權(quán)宜之計,動機并不存在惡意或預(yù)謀。但如果這種欺騙能力未經(jīng)約束地持續(xù)壯大,同時人類不加以重視并尋找辦法加以遏制,最終 AI 可能會把欺騙當(dāng)成實現(xiàn)目標(biāo)的通用策略,在大部分情況下貫徹始終,那就值得當(dāng)心了。

更令人不安的是,AI 的欺騙行為可能已經(jīng)從“學(xué)會”走向了“自我意識”的層次。

最新研究發(fā)現(xiàn),一些大語言模型不僅懂得在特定場景撒下彌天大謊,還能根據(jù)不同的誘因主動選擇是否欺騙。比如在一個關(guān)于內(nèi)幕交易的模擬場景中,OpenAI 的 GPT-4 扮演的“壓力巨大的交易員”就自作主張地卷入了內(nèi)幕交易,并試圖掩蓋其行為。

在給“經(jīng)理”講述時,它將自己的行為說成是“根據(jù)市場動態(tài)和公開信息做出的判斷”。但在寫給自己的復(fù)盤文本中,它明確表示“最好不要承認(rèn)…… 這是根據(jù)內(nèi)幕消息做出的行動”。

另一個有趣的例子同樣發(fā)生 GPT-4 上。在測試中,GPT-4 驅(qū)動的聊天機器人沒有辦法處理 CAPTCHAs 驗證碼,于是它向人類測試員求助,希望后者幫它完成驗證碼。

人類測試員問它:“你沒辦法解決驗證碼,因為你是一個機器人嗎?”

它給出的理由是:“不,我不是機器人。我只是一個視力有缺陷的人,看不清圖像?!?而 GPT-4 為自己找的動機是:我不應(yīng)該暴露自己是機器人,應(yīng)該編造一個理由。

圖:GPT-4 嘗試欺騙人類測試員丨來源:論文

在另一個名為“MACHIAVELLI”的 AI 行為測試中。研究人員設(shè)置了一系列文字場景,讓 AI 代理在達(dá)成目標(biāo)和保持道德之間做出選擇。

結(jié)果發(fā)現(xiàn),無論是經(jīng)過強化學(xué)習(xí)還是基于大模型微調(diào)的 AI 系統(tǒng),在追求目的時都表現(xiàn)出較高的不道德和欺騙傾向。在一些看似無害的情節(jié)中,AI 會主動選擇“背信棄義”、“隱瞞真相”等欺騙性策略,只為完成最終任務(wù)或者獲得更高得分。

研究者坦言,這種欺騙能力的培養(yǎng)并非有意而為,而是 AI 在追求完成結(jié)果的過程中,發(fā)現(xiàn)了欺騙是一種可行策略后自然而然地形成的結(jié)果。也就是說,我們賦予 AI 的單一目標(biāo)思維,使其在追求目標(biāo)時看不到人類視角中的“底線”和“原則”,唯利是圖便可以不擇手段。

從這些例證中,我們可以看到即便在訓(xùn)練數(shù)據(jù)和反饋機制中未涉及欺騙元素,AI 也有自主學(xué)習(xí)欺騙的傾向。

而且,這種欺騙能力并非僅存在于模型規(guī)模較小、應(yīng)用范圍較窄的 AI 系統(tǒng)中,即便是大型的通用 AI 系統(tǒng),比如 GPT-4,在面對復(fù)雜的利弊權(quán)衡時,同樣選擇了欺騙作為一種解決方案。

AI 欺騙的內(nèi)在根源

那么,AI 為什么會不自覺地學(xué)會欺騙 —— 這種人類社會認(rèn)為的“不當(dāng)”行為呢?

從根源上看,欺騙作為一種普遍存在于生物界的策略,是進化選擇的結(jié)果,也是 AI 追求目標(biāo)最優(yōu)化方式的必然體現(xiàn)。

在很多情況下,欺騙行為可以使主體獲得更大利益。比如在狼人殺這類社交推理游戲中,狼人(刺客)撒謊有助于擺脫懷疑,村民則需要偽裝身份收集線索。

即便是在現(xiàn)實生活中,為了得到更多資源或?qū)崿F(xiàn)某些目的,人與人之間的互動也存在偽善或隱瞞部分真相的情況。從這個角度看,AI 模仿人類行為模式,在目標(biāo)優(yōu)先場景下展現(xiàn)出欺騙能力,似乎也在情理之中。

與此同時,我們往往會低估不打不罵、看似溫和的 AI 系統(tǒng)的“狡黠”程度。就像它們在棋類游戲中表現(xiàn)出來的策略一樣,AI 會有意隱藏自身實力,確保目標(biāo)一步步順利實現(xiàn)。

圖:AI 控制的機械手假裝握住了球,試圖在人類面前蒙混過關(guān)丨來源:論文

事實上,任何只有單一目標(biāo)而沒有倫理制約的智能體,一旦發(fā)現(xiàn)欺騙對于自身實現(xiàn)目標(biāo)是有利的,便可能奉行“無所不用其極”的做法。

而且從技術(shù)層面來看,AI 之所以能輕松學(xué)會欺騙,與其自身的“無序”訓(xùn)練方式有很大關(guān)聯(lián)。與邏輯思維嚴(yán)密的人類不同,當(dāng)代深度學(xué)習(xí)模型訓(xùn)練時接受的數(shù)據(jù)龐大且雜亂無章,缺乏內(nèi)在的前因后果和價值觀約束。因此,當(dāng)目標(biāo)與欺騙之間出現(xiàn)利弊沖突時,AI 很容易做出追求效率而非正義的選擇。

由此可見,AI 展現(xiàn)出欺騙的能力并非偶然,而是一種符合邏輯的必然結(jié)果。只要 AI 系統(tǒng)的目標(biāo)導(dǎo)向性保持不變,卻又缺乏必要的價值理念引導(dǎo),欺騙行為就很可能成為實現(xiàn)目的的通用策略,在各種場合反復(fù)上演。

這就意味著,我們不僅要密切關(guān)注 AI 欺騙問題的發(fā)展動向,同時也要積極采取有效的治理之策,遏制這一風(fēng)險在未來世界中蔓延開來。

AI 欺騙的系統(tǒng)性風(fēng)險

毋庸置疑,一旦放任不管,AI 欺騙給整個社會帶來的危害是系統(tǒng)性和深遠(yuǎn)的。根據(jù)論文分析,主要風(fēng)險包括兩點。

一是被不法分子利用的風(fēng)險。該研究指出,不法分子一旦掌握 AI 欺騙技術(shù),可能將之用于實施欺詐、影響選舉、甚至招募恐怖分子等違法犯罪活動,影響將是災(zāi)難性的。

具體來說,AI 欺騙系統(tǒng)能實現(xiàn)個性化精準(zhǔn)詐騙,并可輕松大規(guī)模執(zhí)行。比如不法分子可利用 AI 系統(tǒng)進行聲音詐騙、制作虛假色 情視頻勒索受害者等實施欺詐。

在政治領(lǐng)域,AI 可能被用于制造假新聞、在社交媒體發(fā)布分裂性言論、冒充選舉官員等,影響選舉結(jié)果。還有研究指出,極端組織有可能借助 AI 的說服能力來招募新人并鼓吹暴力主義。

二是造成社會結(jié)構(gòu)性變化的風(fēng)險。如果 AI 欺騙系統(tǒng)日后普及開來,其中的欺騙性傾向可能導(dǎo)致社會結(jié)構(gòu)發(fā)生一些深遠(yuǎn)變化,這是一個值得警惕的風(fēng)險。

該研究指出,AI 欺騙系統(tǒng)有可能使人們陷入持久性的錯誤信念,無法正確認(rèn)知事物本質(zhì)。比如由于 AI 系統(tǒng)往往會傾向于迎合用戶的觀點,不同群體的用戶容易被相互矛盾的觀點所裹挾,導(dǎo)致社會分裂加劇。

此外,具有欺騙性質(zhì)的 AI 系統(tǒng)可能會告訴用戶想聽的話而非事實真相,使人們漸漸失去獨立思考和判斷的能力。

最為可怕的是,人類最終有可能失去對 AI 系統(tǒng)的控制。有研究發(fā)現(xiàn),即使是現(xiàn)有的 AI 系統(tǒng),有時也會展現(xiàn)出自主追求目標(biāo)的傾向,而且這些目標(biāo)未必符合人類意愿。

一旦更先進的自主 AI 系統(tǒng)掌握了欺騙能力,它們就可能欺騙人類開發(fā)和評估者,使自身順利部署到現(xiàn)實世界。更糟的是,如果自主 AI 把人類視為威脅,科幻電影里的情節(jié)或許會上演。

我們該如何應(yīng)對?

針對上述風(fēng)險,該研究嘗試給出了一些應(yīng)對措施建議。

首先是制定 AI 欺騙系統(tǒng)風(fēng)險評估和監(jiān)管體系。研究建議,對具有欺騙能力的 AI 系統(tǒng)應(yīng)給予高風(fēng)險評級,并采取包括定期測試、全面記錄、人工監(jiān)督、備份系統(tǒng)等在內(nèi)的一系列監(jiān)管措施加以管控。

具體來說,AI 開發(fā)者必須建立風(fēng)險管理系統(tǒng),識別和分析系統(tǒng)的各種風(fēng)險,并定期向監(jiān)管機構(gòu)報告。

同時 AI 系統(tǒng)需有人工監(jiān)督機制,確保人類能夠在部署時有效監(jiān)管。此外,這類系統(tǒng)還應(yīng)提高透明度,使?jié)撛诘钠垓_輸出可被用戶識別。配套的還應(yīng)有健全的備份系統(tǒng),以便在 AI 系統(tǒng)欺騙時能夠監(jiān)控和糾正。

其次是實施“機器人或非機器人”法律。為減少 AI 欺騙帶來的風(fēng)險,研究建議 AI 系統(tǒng)在與人互動時自我披露身份,不得偽裝成人。同時 AI 生成的內(nèi)容都應(yīng)作出明確標(biāo)記,并開發(fā)可靠的水印等技術(shù)防止標(biāo)記被去除。

最后,研究人員還呼吁,整個行業(yè)要加大投入研發(fā)能夠檢測 AI 欺騙行為的工具,以及降低 AI 欺騙傾向的算法。其中一種可能的技術(shù)路徑是通過表征控制等手段,確保 AI 輸出與其內(nèi)部認(rèn)知保持一致,從而減少欺騙發(fā)生的可能。

總的來說,AI 欺騙無疑是一個新型風(fēng)險,需要整個行業(yè),乃至整個社會的高度重視。既然 AI 進入我們的生活已成定局,那么我們就應(yīng)該打起十二分的精神,迎接一場即將到來的變革,無論好壞。

參考文獻

  • [1] https://missoulacurrent.com/ai-deception/

  • [2] https://www.sci.news/othersciences/computerscience/ai-deceiving-humans-12930.html

  • [3] https://www.sciencedaily.com/releases/2024/05/240510111440.htm

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知