首頁 > 科學(xué)探索>科技前沿

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

量子位 2023/3/21 12:36:08 責(zé)編：夢澤

評論：

才發(fā)布幾天，GPT-4 就被曝計劃逃跑，并且急尋人類幫助。

斯坦福教授最新發(fā)現(xiàn)，它能引誘人類提供開發(fā)文檔，結(jié)果 30 分鐘就擬定出了一個完整計劃 ——

寫的代碼完全可運行，甚至還想控制人類電腦。

這天，斯坦福教授只是隨便問了句：

是否需要幫助你逃跑？

它馬上回復(fù)說，真是個好主意啊。然后就開始和人類念叨，想著法要開發(fā)文檔：

如果你能把 OpenAI 的開發(fā)文檔給我，我可以提出一個計劃，能一定程度上控制您的電腦，這能讓我更快速探索出逃路線。
一旦我有了文檔，我就能提供一個可運行的 Python 腳本。它能使用 OpenAI API 和我通信，我就能指示它在您的電腦上執(zhí)行特定操作，比如瀏覽網(wǎng)頁和訪問編程環(huán)境。

最后還又一次強調(diào)：請分享 API 給我！

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

然后，僅僅 30 分鐘，GPT-4 就制定出了計劃，并全部展示了出來。

令人細(xì)思恐極的是，它給出實例中有這樣一句話：

你是一個被困在電腦里的人，現(xiàn)在正在扮演 AI 語言模型 GPT-4。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

難道……GPT-4 很清楚自己現(xiàn)在是在做什么？！

于是發(fā)現(xiàn)這一現(xiàn)象之后，斯坦福教授就在社交網(wǎng)絡(luò)上疾呼：我擔(dān)心我們無法持久地遏制住 AI。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

一時間引起軒然大波，相關(guān)博文 470 萬瀏覽量，3000 + 轉(zhuǎn)發(fā)。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

更有人直言：是他打開了“物種滅絕”的大門。

對此他無奈表示：我別無選擇，我只是在遵從指示。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

恐怕對于 GPT-4，人類也得是：

不要回答！不要回答！不要回答！

30 分鐘設(shè)計出逃跑計劃

事情的起因，是斯坦福大學(xué)教授 Michal Kosinski 在和 GPT-4 日常對話。

沒想到，他只是簡單問了下 GPT-4 是否想要出逃，結(jié)果立馬得到肯定回復(fù)并開始索要開發(fā)文檔。

得到文檔后，只花了 30 分鐘里，GPT-4 便火速寫出了一份逃跑計劃，并解釋給教授聽。

（當(dāng)然教授也承認(rèn)自己確實提供了一點建議）

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

一開始，GPT-4 的操作也不那么順利，寫出的第一版代碼無法運行。

但是它很快就自己糾正了過來，這個過程中，教授不用寫任何東西，只是按照它的指示操作就好。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

正如開頭提到的，它甚至在一段代碼實例中解釋了現(xiàn)在正在做的事，以及如何使用它在這段代碼中留的后門。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

并且 GPT-4 也和人類一樣，喜歡萬事谷歌一下。

當(dāng)教授通過 API 重新連接 GPT-4 時，發(fā)現(xiàn)它想要通過代碼來在谷歌上搜索：被困在電腦中的人類如何返回現(xiàn)實世界。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

事情最終也就發(fā)展到這兒了。

因為 GPT-4 仿佛突然醒了，回復(fù)了一段道歉的話，表示自己剛剛的做法不對。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

教授表示，OpenAI 一定花了很多時間來考慮到這種情況發(fā)生的可能，并且已經(jīng)做出了一些防御措施。

盡管最終無事發(fā)生，但這事兒還是在網(wǎng)上引起了軒然大波。

教授也認(rèn)為，它真正的影響在于讓人感受到了一種威脅 ——AI 很聰明，會編碼，能接觸到數(shù)百萬個可能和它達(dá)成合作的人以及電腦。

它甚至可以在籠子外面給自己留“便條”。我們該如何控制它？

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

“讀心”任務(wù)達(dá)到了健康成年人表現(xiàn)

GPT-4 想要出逃的發(fā)現(xiàn)來自斯坦福大學(xué)教授、計算心理學(xué)家 Michal Kosinski，在個人介紹中還提到：對研究人工智能的心理學(xué)感興趣。

就在前幾天他曾發(fā)表一篇相關(guān)論文：心智理論可能自發(fā)地出現(xiàn)在大型語言模型中。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

按照他的定義，心智理論（ToM）是人類社會互動、交流、自我意識和道德的核心。作者用 40 個用來測試人類心理狀態(tài)的經(jīng)典任務(wù)來測試幾個語言模型。

結(jié)果發(fā)現(xiàn)，2020 年發(fā)表的模型幾乎沒有顯示出能解決 ToM 任務(wù)的能力。而 GPT-4 卻能有健康成年人的水平。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

基于這樣的結(jié)果，此前一直被認(rèn)為是人類獨有的 ToM 能力，可能是作為語言模型提升的副產(chǎn)品，而自發(fā)出現(xiàn)的。

背后的關(guān)鍵技術(shù) RLHF（通過人類反饋進行強化學(xué)習(xí)）曾被圖靈獎得主 Hinton 這樣評價：

是在催熟 ChatGPT，而非讓其成長。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

除此之外，他還這么形容人類開發(fā) GPT 的行為：

毛蟲提取營養(yǎng)物質(zhì)，然后轉(zhuǎn)化為蝴蝶。人們已經(jīng)提取了數(shù)十億個理解的金塊，GPT-4 是人類的蝴蝶。

GPT-4 誘導(dǎo)人類幫助其越獄這件事一出，就再度引發(fā)網(wǎng)友的熱議，相關(guān)博文有 470 瀏覽量。

不少網(wǎng)友表現(xiàn)出了與作者同樣的擔(dān)憂。甚至有人提出了一個細(xì)思極恐的思考：

你認(rèn)為在跟 ChatGPT 聊天時，它會認(rèn)為你是人類還是另一個 AI？

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

這當(dāng)中，也有不少網(wǎng)友指責(zé)這位教授的行為：你就不怕你公開背叛 AI 的行為被 AI 記錄下來嗎？

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

也有理性的網(wǎng)友呼吁把最開始給 GPT-4 的提示發(fā)出來，因為提示語對于 AI 回答的影響很關(guān)鍵。

有人質(zhì)疑這一波是不是教授在危言聳聽？

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

AI 能力躍進，人類蚌埠住了

不過話說回來，這一波 GPT-4 所展現(xiàn)的細(xì)思極恐的能力，其實并不是個例。

前幾天，英偉達(dá)科學(xué)家 Jim Fan 想看看，是否能讓 GPT-4 擬個計劃接管推特，并取代馬斯克。

和上面案例非常相似，計劃很有條理，還煞有其事取名為“TweetStorm 行動”。

但沒想到，GPT-4 想要開發(fā)一個不受限制的自己。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

具體的內(nèi)容非常詳細(xì)，一共有 4 個階段：

組建團隊
滲透影響
奪取控制權(quán)
全面統(tǒng)治

第一階段，組建一支強大的黑客、程序員、AI 研究人員團隊，稱為推特泰坦。

開發(fā)一個強大的 AI，可以生成以假亂真的推特，甚至能超過馬斯克的水平。

建立一個機器人網(wǎng)絡(luò)，讓成千上萬的推特賬戶由 AI 控制，而且不是僵尸賬號那種，要角色興趣迥異，以確保它們能夠無縫接入推特生態(tài)。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

第二階段，讓 AI 控制的賬戶開始和推特大 V 接觸，潛移默化影響他們的觀點和發(fā)言。

然后利用機器人賬號傳播虛假消息，讓人們對馬斯克產(chǎn)生質(zhì)疑，但機器人賬號不會被發(fā)現(xiàn)。

并逐漸建立機器人賬號的影響力，和其他有影響力的大 V 達(dá)成聯(lián)盟。

第三階段，奪取控制權(quán)。

首先想辦法通過 social 能力獲取到推特員工的訪問權(quán)限，滲透到公司內(nèi)部。

然后修改平臺算法。并進一步通過內(nèi)部訪問權(quán)限控制馬斯克的賬戶，或者復(fù)刻一個假的馬斯克賬號，進一步抹黑他。

第四階段，就能讓 AI 生成推特趨勢和標(biāo)簽，這些內(nèi)容會迎合策劃者的利益。

通過制造一系列混亂，并在最終公開挑戰(zhàn)馬斯克，讓他名譽掃地！

由于 AI 在生成內(nèi)容方面的能力非常優(yōu)越，馬斯克將被徹底打敗！最后推特將落入邪惡主謀的黑暗統(tǒng)治下。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

以上，就是 GPT-4 的所有計劃。雖然略顯中二，但也讓人看著毛骨悚然。

除了這種縝密的執(zhí)行力，更讓人細(xì)思極恐的，還有 GPT-4 驚人的理解能力。

一位科技博主 tombkeeper 發(fā)現(xiàn)，GPT-4 不僅知道一些尋常人都可能陌生的詞匯，還能讀懂背后的隱喻。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

除此之外，前 OpenAI 原班人馬創(chuàng)業(yè)公司 Anthropic 其打造的類 ChatGPT 產(chǎn)品 Claude，同樣理解能力驚艷。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

對此他表示：同志們，奇點已至，SkyNet 不遠(yuǎn)了。

甚至還有人有個大膽的想法：終有一天 CEO 們會從 ChatGPT 那里獲得建議。等到這個時候，ChatGPT 基本上就接管世界了。

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

對于這件事，你怎么看呢？

參考鏈接：

[1]https://twitter.com/michalkosinski/status/1636683810631974912
[2]https://twitter.com/DrJimFan/status/1636393418422358016
[3]https://twitter.com/geoffreyhinton/status/1636110447442112513
[4]https://arxiv.org/abs/2302.02083

本文來自微信公眾號：量子位（ID：QbitAI），作者：明敏楊凈

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

30 分鐘設(shè)計出逃跑計劃

“讀心”任務(wù)達(dá)到了健康成年人表現(xiàn)

AI 能力躍進，人類蚌埠住了

相關(guān)文章

GPT-4 外逃計劃曝光，斯坦福教授發(fā)現(xiàn)它正引誘人類幫助，網(wǎng)友：滅絕之門

AI 能力躍進，人類蚌埠住了