IT之家 12 月 4 日消息,由英國(guó) DeepMind 公司開(kāi)發(fā)的人工智能“DeepNash”,通過(guò)“虛張聲勢(shì)”類欺詐手段在《西洋陸軍棋 / 戰(zhàn)略圍棋 (Stratego)》中擊敗了具有專家水平的真人玩家,它甚至可以為了勝利而故意犧牲掉重要棋子,這一行為在 AI 研究中具有十分重要的意義。
相關(guān)研究報(bào)告已經(jīng)發(fā)表在國(guó)際性科學(xué)雜志《新科學(xué)家(New Scientist)》中,DOI:10.1126/science.add4679。
這項(xiàng)研究的學(xué)者表示,它代表了一種“非同尋常的結(jié)果”,因?yàn)?Stratego 圈內(nèi)人士認(rèn)為“這是用現(xiàn)代技術(shù)所無(wú)法實(shí)現(xiàn)的”。
在 Stratego 中,每個(gè)玩家控制 40 個(gè)不同等級(jí)的棋子在 10×10 方格的棋盤上進(jìn)行博弈。如果雙方在棋盤上遭遇,排名更高的棋子將擊敗排名較低的棋子,但你看不到對(duì)方棋子的身份,但這一點(diǎn)就可能造成無(wú)數(shù)的“意外”,而這并不是窮舉法可以簡(jiǎn)單破解的。
簡(jiǎn)單來(lái)說(shuō),Stratego 就是一款類似軍旗的策略型棋盤游戲,其規(guī)則簡(jiǎn)單到可以供幼兒玩耍,但其策略之深度是成年人也難以吃透的。從“策略”角度來(lái)看,Stratego 這種戰(zhàn)棋要比國(guó)際象棋、圍棋或撲克牌有著更多的變數(shù),難度系數(shù)也更高。
DeepMind 研究者 Julien Perolat 表示,“對(duì)我們來(lái)說(shuō),它最令人意外的行為是 [AI] 能夠犧牲具有價(jià)值的棋子來(lái)獲取有關(guān)對(duì)手所制定策略的信息”。
多年來(lái),Stratego 一直作為 AI 研究的下一個(gè)前沿領(lǐng)域之一進(jìn)行攻關(guān),旨在測(cè)試 AI 能否如同人類一般做出相對(duì)激進(jìn)、謹(jǐn)慎,或是布局長(zhǎng)遠(yuǎn)的行為,歸根結(jié)底還是考察 AI 對(duì)于游戲邏輯的判斷和臨場(chǎng)決策的能力。
Julien Perolat 和他同事在此介紹了一種新的方法,它能讓 AI 來(lái)更好地學(xué)習(xí)該游戲。他們利用這種新方法開(kāi)發(fā)了一個(gè)名為 DeepNash 的 AI 機(jī)器人,它能在該游戲的最復(fù)雜版本“Stratego Classic”中展示出堪比人類專家級(jí)的表現(xiàn)。
IT之家了解到,DeepNash 的核心是一種強(qiáng)化學(xué)習(xí)算法“R-NaD”。為制作 DeepNash,Perolat 和團(tuán)隊(duì)將 R-NaD 與深度神經(jīng)網(wǎng)絡(luò)架構(gòu)結(jié)合,從而使其在高端競(jìng)技層面進(jìn)行博弈策略的學(xué)習(xí)和思考。
最終,DeepNash 與各種最先進(jìn)的 Stratego 機(jī)器人和專業(yè)玩家進(jìn)行了博弈測(cè)試,而它最終也成果戰(zhàn)勝了所有其它的機(jī)器人,并在 Gravon (一個(gè)互聯(lián)網(wǎng)游戲平臺(tái),也是 Stratego 的最大在線平臺(tái)) 上擊敗了各路具有專家級(jí)水平的真人玩家,截止報(bào)告發(fā)布時(shí)已經(jīng)在該平臺(tái)排名前三,而它的對(duì)手絲毫沒(méi)有意識(shí)到網(wǎng)線對(duì)面竟然是個(gè) AI。
除此之位,DeepMind AI 在對(duì)抗頂級(jí)戰(zhàn)略游戲機(jī)器人時(shí)也取得了 97% 的勝率,其中不乏一些曾贏得世界錦標(biāo)賽的機(jī)器人。
“優(yōu)秀的棋手往往會(huì)記住對(duì)手的棋子并預(yù)測(cè)他們的核心布局,”馬耳他大學(xué)的 Georgios Yannakakis 說(shuō),“DeepNash 兩者都做得很好 —— 當(dāng)然 AI 可能在記憶力方面比人更有優(yōu)勢(shì) ,而且他還會(huì)用有趣且不可預(yù)測(cè)的方式進(jìn)行游戲,例如虛張聲勢(shì)?!?/p>
賓夕法尼亞州卡內(nèi)基梅隆大學(xué)的 Tuomas Sandholm 表示,DeepNash 博弈論可以證明 AI 在與其他人打交道的非博弈情況下也是有用的,例如在商業(yè)和國(guó)防領(lǐng)域。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。