首頁 > 智能時代>人工智能

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

量子位 2024/2/12 12:49:45 責(zé)編：汪淼

評論：

基于大模型的 Agent 會玩寶可夢了，人類水平的那種！

名為 PokéLLMon，現(xiàn)在它正在天梯對戰(zhàn)中與人類玩家一較高下：

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

PokéLLMon 能靈活調(diào)整策略，一旦發(fā)現(xiàn)攻擊無效，立刻改變行動：

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

PokéLLMon 還會運用人類式的消耗戰(zhàn)術(shù)，頻繁給對方寶可夢下毒，并一邊恢復(fù)自身 HP。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

不過面對強敵，PokéLLMon 也會“慌亂”逃避戰(zhàn)斗，連續(xù)切換寶可夢：

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

最終對戰(zhàn)結(jié)果是，PokéLLMon 在隨機天梯賽中取得 49% 的勝率，與專業(yè)玩家的邀請賽中取得 56% 的勝率，游戲戰(zhàn)略和決策水平接近人類。

網(wǎng)友看到 PokéLLMon 的表現(xiàn)也很意外，直呼：

小心被任天堂封禁，這話是認(rèn)真的。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

甚至有網(wǎng)友喊話寶可夢大滿貫選手、世錦賽冠軍 Wolfey Glick，來和這個 AI 一較高下：

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

這究竟是如何做到的？

PokéLLMon 大戰(zhàn)人類

PokéLLMon 由佐治亞理工學(xué)院研究團隊提出：

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

具體來說，他們提出了三個關(guān)鍵策略。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

一是上下文強化學(xué)習(xí)（In-Context Reinforcement Learning）。

利用從對戰(zhàn)中即時獲得的文字反饋作為一種新的“獎勵”輸入，不需要訓(xùn)練就可以在線迭代完善和調(diào)整 PokéLLMon 的決策生成策略。

其中反饋內(nèi)容包括：回合 HP 變化、攻擊效果、速度優(yōu)先級、招式額外效果等。

比如 PokéLLMon 反復(fù)使用相同的攻擊招式，但由于對方寶可夢具有“干燥皮膚”的能力，對其沒有任何效果。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

在第三回合中對戰(zhàn)中，通過即時上下文強化學(xué)習(xí)，PokéLLMon 隨后選擇更換寶可夢。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

二是知識增強生成（Knowledge-Augmented Generation）。

通過檢索外部知識源作為額外輸入，融入到狀態(tài)描述中。比如檢索類型關(guān)系、招式數(shù)據(jù)，模擬人類查詢寶可夢圖鑒，來減少未知知識導(dǎo)致的“幻覺”問題。

由此一來，PokéLLMon 可以準(zhǔn)確理解并應(yīng)用招式效果。

比如面對鐵甲犀牛進化形態(tài)的地面攻擊，PokéLLMon 未選擇更換寶可夢，而是施展“電磁飄浮”，該技能在五回合內(nèi)成功抵御地面攻擊，使犀牛的“地震”技能無效。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

三是一致性動作生成（Consistent Action Generation）。

研究人員發(fā)現(xiàn)，當(dāng) PokéLLMon 面對強大對手時，思維鏈（CoT）的推理方式會導(dǎo)致它因“恐慌”而頻繁更換道具或?qū)毧蓧簟?/p>

△PokéLLMon 害怕，不斷切換寶可夢

而通過一致性動作生成，可以獨立多次生成行動，投票出最一致的，從而緩解“恐慌”。

值得一提的是，研究人員所用的模型自主和人類作戰(zhàn)的寶可夢對戰(zhàn)環(huán)境，基于 Pokemon Showdown 和 poke-env 實現(xiàn)，目前已開源。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

為了測試 PokéLLMon 的對戰(zhàn)能力，研究人員用它分別與隨機天梯賽玩家和一名擁有 15 年經(jīng)驗的專業(yè)玩家對戰(zhàn)。

結(jié)果，PokéLLMon 與天梯隨機玩家的勝率為 48.57%，與專業(yè)玩家的邀請對戰(zhàn)勝率為 56%。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

總的來說，PokéLLMon 的優(yōu)勢在于：能準(zhǔn)確選擇有效招式，統(tǒng)一使用一個寶可夢擊倒全部對手；展現(xiàn)出類人的消耗戰(zhàn)略，使對手中毒后再拖延回血。

不過研究人員也指出了 PokéLLMon 的不足之處，面對玩家的消耗戰(zhàn)略 (拖延回血) 很難應(yīng)對：

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

容易被玩家的迷惑戰(zhàn)術(shù)誤導(dǎo)（迅速切換寶可夢，巧妙使 PokéLLMon 浪費強化攻擊機會）：

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

團隊簡介

三位作者均為華人學(xué)者。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

論文一作胡思昊，現(xiàn)為佐治亞理工學(xué)院計算機科學(xué)博士生，本科畢業(yè)于浙江大學(xué)，曾在新加坡國立大學(xué)擔(dān)任研究助理。

研究興趣包括用于區(qū)塊鏈安全和推薦系統(tǒng)的數(shù)據(jù)挖掘算法及系統(tǒng)。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

作者 Tiansheng Huang，同為佐治亞理工學(xué)院計算機科學(xué)博士生，華南理工大學(xué)校友。

研究興趣包括分布式機器學(xué)習(xí)、并行與分布式計算、優(yōu)化算法以及機器學(xué)習(xí)安全性。

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

導(dǎo)師劉玲，現(xiàn)為佐治亞理工學(xué)院計算機系教授。1982 年畢業(yè)于中國人民大學(xué)，1993 年于荷蘭蒂爾堡大學(xué)獲博士學(xué)位。

劉教授主導(dǎo)分布式數(shù)據(jù)密集系統(tǒng)實驗室（DiSL）的研究工作，專注于大數(shù)據(jù)系統(tǒng)及其分析的多個方面，如性能、安全和隱私等。

同時她也是 IEEE Fellow，2012 年獲得 IEEE 計算機學(xué)會技術(shù)成就獎，還曾擔(dān)任多個 IEEE 和 ACM 大會主席。

參考鏈接：

[1]https://twitter.com/_akhaliq/status/1754337188014100876
[2]https://poke-llm-on.github.io/

本文來自微信公眾號：量子位（ID：QbitAI），作者：西風(fēng)

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

大模型玩《寶可夢》達(dá)人類水平！網(wǎng)友喊話世界冠軍：是時候一較高下了

PokéLLMon 大戰(zhàn)人類

團隊簡介

相關(guān)文章