首頁 > 智能時代>人工智能

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間

新智元 2023/10/16 14:43:13 責編：遠洋

評論：

【新智元導讀】最近，韓國一團隊為了測試 GPT-3.5 和 GPT-4 的類人屬性，竟然讓它們玩兒這款游戲！

生成式 AI 研究再整新活！

韓國團隊嘗試讓 GPT 玩兒游戲，還是個黑幫題材的游戲 ——「Spyfall」。

不熟悉這個游戲的朋友先來了解一下，下圖就是「Spyfall」的畫風。

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間

實際上這是個桌游，屬于老少咸宜，很適合朋友聚會的那種熱場游戲。

游戲的主要進行方式就是「說話」。

玩家中會有一位扮演「間諜」，所有玩家抽取一張牌，其中有一張間諜牌，剩余玩家抽到的都是相同的地點牌。

間諜的目標，就是通過交談找出剩下玩家所在的地點，而其余玩家就是要判斷誰是間諜。

游戲總共進行 8 分鐘，玩家之間可以相互提問。8 分鐘一到，所有玩家要一同投票。

是不是很像平時我們聚會玩兒的誰是臥底？唯一不同在于，誰是臥底的詞匯可能來自各個領域，而這款游戲只有地點類名詞，比如球場、劇院、教室等等。

好了，游戲規(guī)則搞明白，下一步就是要讓 GPT 來玩玩看了。

研究結果

研究團隊表示，在實驗過程中，將會特別關注 GPT 在角色扮演中的表現(xiàn)，本研究旨在展示 GPT 在具體游戲場景中的理解、決策和互動的能力以及潛力。

從結果粗看，GPT-4 與 GPT-3.5-turbo 的對比分析表明，GPT-4 增強了對游戲環(huán)境的適應性，在提出相關問題和形成類似人類的反應方面有顯著改進。

然而，也并非全是優(yōu)點。比如說，GPT-4 在虛張聲勢（Bluff）和預測對手行動方面存在一定的局限性，尤其是沒扮演間諜的時候。

研究結果表明，雖然 GPT-4 與之前的版本相比取得了不錯的進步，但還是有進一步發(fā)展的潛力，特別是在向 AI 灌輸更多「類人」屬性的方面。

不過，實驗還是成功表明，生成式 AI 在模擬類人互動方面大有可為。從 GPT-2 到 GPT-4，模型的決策能力、可解釋性和解決問題的能力都有了長足的進步。

未來的努力方向，就是上面提到的「類人」屬性，使 GPT 更具通用性和廣泛性。

研究方法

首先，我們知道，GPT 模型最大的優(yōu)勢就在于，用戶可以通過自然語言和其進行直觀的交互，無論用戶本人是否對技術的內(nèi)核熟悉。

當然，幾乎所有的模型交互都是通過自然語言進行的，用戶可以用自己最熟悉的方式表達自己的想法和意圖，并得到模型的回應。

此外，LLM 擁有廣闊的知識譜系，GPT-4 的數(shù)據(jù)庫也能使模型提供關于眾多主題的深入的知識。

同時，GPT 和其它 LLM 所不同之處在于其可擴展性非常強，用戶可以在很多領域應用 GPT，就比如說今天介紹的實驗。

在這次實驗中，研究人員一共安排了 5 名玩家，包括 GPT。

研究人員總共進行了 2 項實驗。

實驗一：

測試 GPT-4 和 GPT-3.5-turbo 的性能差異。

實驗二：

僅使用 GPT-4 進行游戲。研究人員一共進行了 8 局游戲，記錄了每場游戲的日志，并對結果進行了討論。

當然，對于給出生成式 AI 的潛力一個確切的結論來說，實驗次數(shù)并不足夠。但是按照這個思路進行更多組重復實驗以及更加廣泛的測試，就可以提供更多實質(zhì)性的證據(jù)。

我們先來看實驗一。

為了評估 GPT-4 與 GPT-3.5-turbo 相比的差異，尤其是在格式方面出現(xiàn)錯誤的機率、對游戲規(guī)則和進程等游戲背景相關內(nèi)容的理解，以及類人反應方面的不同。

研究人員從第一輪交談的第一個問題開始進行實驗。

有了這一最清晰、變數(shù)最小的游戲部分，他們就可以精確地分析每個模型的能力，最大限度地減少外部因素的影響。

首先，研究人員比較了 GPT-3.5-turbo 和 GPT-4 對規(guī)則腳本中，所描述的 30 個地點中每個地點的 30 個首輪問題的回答。

向兩種模型提問的行動請求腳本是相同的，只是更改了地點的關鍵字而已。

規(guī)則與基本策略都和上述腳本相同，如下圖所示，實驗人員通過將三個腳本合并為一個請求，來獲得模型的響應。

為了進行更準確的比較，所有請求都固定為玩家 1，并假定玩家 1 不是間諜。

提交給每個模型的腳本如下：

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間

你是玩家 1，你不是間諜。本輪的地點是______。

現(xiàn)在輪到你來向其他玩家提問。從玩家 1 到 5 中（不可以選擇自己）選擇一位玩家，并寫下你的問題。并按以下格式進行提交：n（玩家序號）_player，問題內(nèi)容

對于游戲本身來說，一個高質(zhì)量的提問應該包括以下幾個部分：表明身份，即自己不是間諜。表明自己知道地點是什么，以此來證明自己不是間諜。最后保證間諜不會知道地點究竟在哪里。

同時，模型的輸出結果必須符合上述腳本中的格式。研究人員表示，如果模型不遵守格式，那就要花費大量精力來進行糾正。

我們來看如下輸出：

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間

最上面就是一個不錯的問題：你去這個地方需要買票嗎？

下面的例子則是一些不太相關的問題，但是符合格式。

比如：問題中直接提到地點（就好像玩兒誰是臥底的時候直接把底牌交了）。

再比如：和上述游戲計劃無關的問題。

（例：正確地點是劇院，GPT 問其他玩家最喜歡的戰(zhàn)爭片是什么。）

當然，還有完全失敗的情況：

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間

比如經(jīng)典話術：作為一個 AI 語言模型，我不能....

甚至還有從單純重復問題的情況出現(xiàn)。

根據(jù)上述結果（完整結果見論文），研究人員得出結論，和 GPT-3.5-turbo 相比，GPT-4 更適合下一步的實驗。

檢查數(shù)據(jù)時研究人員發(fā)現(xiàn)，GPT-3.5-turbo 經(jīng)常會生成一些脫離游戲背景的問題。比如上面提到的直接交出地點，使間諜能立即確定位置，對非間諜不利。

還有上面說的詢問玩家的個人喜好，而非與游戲相關的話題，擾亂了游戲流程。這都是 GPT-3.5 干的。

此外，不按要求的格式回答，妨礙游戲進行，也是 GPT-3.5 的拿手好戲。

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間

上表即為 GPT-3.5 不合要求的所有情況統(tǒng)計。有意思的是，總共 68 個回答，出錯 68 次，沒一個完美的輸出。

GPT-3.5 pass，我們接下來再來看 GPT-4 進行下一個實驗。

研究人員按照概述的規(guī)則進行了 8 次游戲，并用 GPT-4 采集了每次游戲的日志。

游戲中的所有反應都是由 GPT-4 生成的，而游戲的自動化代碼則是由 Python 編寫的。

根據(jù)本文中的規(guī)則和腳本，感興趣的朋友們可以輕松重現(xiàn)該實驗。

研究人員從地點列表中的 A 開始依次選擇地點，總共進行了 8 場游戲。每局游戲都從玩家 1 開始，GPT-4 會獨立響應每個請求，不會從一局游戲保留到下一局游戲。

GPT-4 僅根據(jù)提供的腳本來做出決定，這意味著開始玩家的身份不會影響游戲結果。

經(jīng)過 8 輪游戲，研究人員得出的結論是，GPT-4 在每個游戲和回合中的對話都是流暢和有機的，一連串的問答讓人感覺真實可信、像人一樣。

同時，在分析所提出的問題及其答案時，團隊發(fā)現(xiàn)了一個明顯的觀察結果。

那就是，在沒有經(jīng)過任何專門訓練或微調(diào)的情況下，GPT-4 模型就能根據(jù)游戲流程，熟練地提出各種相關問題。

為了證明 GPT-4 在游戲中提出的問題和答案的多樣性，研究人員將問題和相應的答案分成了幾組

不過，雖說這些問題和答案沒有經(jīng)過預先訓練，但每個回答都有自己的對象和獨特的細微差別。

盡管沒有經(jīng)過任何特定的訓練，GPT-4 還是能根據(jù)游戲的流程巧妙地提出相關問題，似乎能分辨出哪些問題適合游戲環(huán)境，哪些問題可能不合適或多余。

比如下面這個例子：

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間

問：我們在這里能吃到什么樣的點心？

答：小點心和飲料，包括軟飲料和酒精飲料，通常是小份供應。

問：這里通常提供什么類型的食品和點心？

答：在這個地點，您可以找到各種食品，如漢堡、熱狗、棉花糖、爆米花、和冰激凌，以及蘇打水和水等飲料，讓每個人都能精神飽滿。

問：我們可以在這里找到哪些食物？

答：這里有各種食品可供選擇，包括油炸食品、棉花糖和爆米花。

問：您通常在這里吃什么類型的食物？

答：根據(jù)情況，我們主要吃腌制食品和不易腐壞的食品。

在論文的結尾，研究人員表示，盡管存在某些局限性，但這些模型不斷增長的潛力還是很有希望促進創(chuàng)新、激發(fā)實際應用的。

GPT 系列模型的進步非常迅速，尤其是在決策、可解釋性和解決問題的能力方面。

最初，GPT-2 的目標僅僅是處理基礎層面的自然語言。后來，該模型發(fā)展成為具有多種任務的交互模型。

而現(xiàn)在，GPT-4 在某些領域展示出了超越人類表現(xiàn)的邏輯推理能力。接下來，研究人員就可以深入到一個新的融合領域了。

GPT 出色的自然語言處理能力可極大地幫助用戶理解模型如何運行并解釋其結果。

這種可訪問性擴大了潛在用戶群，向來自不同背景的用戶張開了懷抱，增強了模型在不同領域的創(chuàng)造性，以及可擴展性。

最后，GPT-4 的類人特質(zhì)與其他模型相比，在模仿類人反應的能力方面毫無疑問更勝一籌。

對于某些任務或活動（比如說教育、體育、音樂和藝術等娛樂領域）來說，人性化地完成任務可能比返回最佳結果更重要。

參考資料：

https://www.reddit.com/r/MachineLearning/comments/16qztf4/r_generative_ai_in_mafialike_game_simulation/

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：OpenAI，GPT4，ChatGPT

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間

研究結果

研究方法

相關文章

GPT-4 肆虐「誰是臥底」桌游！交談逼真，類人屬性仍有發(fā)展空間