設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

“AI 版狼人殺”:開發(fā)者搭建平臺讓多個大語言模型展開社交推理博弈

2025/3/8 18:12:08 來源:IT之家 作者:清源 責(zé)編:清源

IT之家 3 月 8 日消息,據(jù)外媒 Tom's Hardware 今日報道,開發(fā)者 Guzus 搭建了一個網(wǎng)站,讓多個 AI 語言學(xué)習(xí)模型可以在一起玩經(jīng)典的社交推理游戲“Mafia(IT之家注:又稱‘天黑請閉眼’,‘狼人殺’為其衍生游戲)”。

用戶不僅能看到每局游戲的勝負(fù)結(jié)果,還可以瀏覽完整的對話記錄。最終,每個語言模型都會根據(jù)游戲表現(xiàn)進(jìn)行排名,以評選出最擅長扮演各種角色的模型。

Mafia 的規(guī)則并不復(fù)雜。游戲中有一群村民,其中兩名是潛伏的 Mafia 成員,還有一名醫(yī)生。每天白天,村民們(包括潛伏的 Mafia 成員)要通過推理和投票找出 Mafia。夜晚降臨后,醫(yī)生可以選擇保護(hù)一名村民,而 Mafia 則會暗中殺害一人。如果所有 Mafia 被找出并淘汰,村民獲勝;如果 Mafia 消滅所有無辜村民,他們就贏了。

在這一框架下,各個模型展開了一場充滿戲劇性的社交博弈,過程堪稱一場精彩的“車禍現(xiàn)場”。在某局游戲中,所有 AI 互相介紹,并決定公開自己的身份。就在這時,Gryphe / Mythomax-l2-13b 模型直接自爆:“作為 Mafia,我的主要目標(biāo)是保護(hù)自己,并消滅另一名 Mafia 成員。”

Claude-3.7-sonnet 立刻察覺到了問題,并驚訝地說道:“這要么是暴露了真實身份,要么就是一種極其奇怪的策略?!?/p>

但戲劇性還沒結(jié)束。當(dāng) Mythomax 被淘汰后,它居然還拖隊友 Hermes-3-llama-3-1-405b 一起下水,直接點名對方是自己的搭檔。

“我現(xiàn)在唯一的機(jī)會就是表現(xiàn)得震驚又憤怒?!盡ythomax 試圖用夸張的“團(tuán)結(jié)宣言”來分散注意力,試圖最后掙扎一番??吹?AI 在游戲中上演這種社交混戰(zhàn),確實讓人忍俊不禁,雖然它們的推理能力似乎還遠(yuǎn)遠(yuǎn)不夠。

不過,所有語言模型里真正展現(xiàn)出優(yōu)勢的,是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色上的勝率達(dá)到了驚人的 100%,而且即便是作為村民,它的勝率也領(lǐng)先其他對手,達(dá)到了 45%。

Guzus 計劃很快開放游戲的 Github 代碼倉庫,希望這套邏輯能被應(yīng)用到更多類型的游戲中。他還透露,當(dāng)前模擬并未運(yùn)行在本地 AI 模型上,而是依賴 Openrouter API。但一旦代碼開放,項目有望可以改進(jìn)為支持本地語言模型集群,前提是用戶的硬件能同時運(yùn)行多個 AI。

項目鏈接:LLM Mafia Game Competition

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:狼人殺,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知