AlphaZero 黑箱終于被打開(kāi)!登頂 5 年后,人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

量子位 2022/11/17 22:18:05 責(zé)編:遠(yuǎn)生

AI 如何學(xué)到知識(shí)的?科學(xué)家敲開(kāi)了它的腦殼看了看。

這兩天,DeepMind 及谷歌大腦一篇文章被《美國(guó)國(guó)家科學(xué)院院刊》(PNAS) 收錄,其內(nèi)容正是以 5 年前發(fā)布的 AlphaZero 為例,研究神經(jīng)網(wǎng)絡(luò)如何獲取并理解國(guó)際象棋知識(shí)。

在內(nèi)容中,研究者重點(diǎn)關(guān)注了「神經(jīng)網(wǎng)絡(luò)是如何學(xué)習(xí)的」「知識(shí)又如何被量化表示」等問(wèn)題。

有意思的是,他們發(fā)現(xiàn):

在沒(méi)有人類(lèi)對(duì)弈指導(dǎo)下,AlphaZero 仍形成了一套類(lèi)似專(zhuān)業(yè)棋手才懂的概念體系。研究者還進(jìn)一步探尋了這些概念何時(shí)何處形成。

此外,他們還對(duì)比了 AlphaZero 與人類(lèi)開(kāi)局棋風(fēng)的不同。

有網(wǎng)友感慨,這是個(gè)影響深遠(yuǎn)的工作:

也有人感慨,AlphaZero 能計(jì)算任何人類(lèi)行為特征了?!

欲知更多觀察結(jié)果,往下看。

掀起了神經(jīng)網(wǎng)絡(luò)的頭蓋骨

AlphaZero 于 2017 年由 DeepMind 發(fā)布并一鳴驚人。

這是一種神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)器,專(zhuān)精于棋類(lèi),內(nèi)部包含了殘差網(wǎng)絡(luò)(ResNet)骨干網(wǎng)及分離的策略及價(jià)值 heads。

其輸出函數(shù)可表示如下,z 為國(guó)際象棋排布情況:

為研究 AlphaZero 如何「學(xué)習(xí)」的,研究者構(gòu)建了一個(gè)人類(lèi)理解國(guó)際象棋的函數(shù) c (z0)。其中,z0 為一個(gè)象棋特定排布概念,c (z0) 以專(zhuān)業(yè)國(guó)際象棋引擎 Stockfish 8 評(píng)估分?jǐn)?shù)作為參考。

再?gòu)?AlphaZero 角度,設(shè)一個(gè)廣義線性函數(shù) g (zd),作為在不同層取值的探針。訓(xùn)練設(shè)定下,g (zd) 將不斷趨近??(??0),研究者通過(guò)觀察 g (zd) 與??(??0) 近似情況,以確認(rèn)系統(tǒng)是否理解相關(guān)概念。

接著,研究團(tuán)隊(duì)隨機(jī)抽取了 10 萬(wàn)盤(pán)游戲作為訓(xùn)練集,觀察 AlphaZero 表現(xiàn)。

情況如下圖,結(jié)果顯示,隨著訓(xùn)練步數(shù)(step)及 ResNet 網(wǎng)絡(luò)塊數(shù)(block)越來(lái)越多,AlphaZero 表現(xiàn)出來(lái)的分?jǐn)?shù)越來(lái)越高(圖 A),對(duì)弈過(guò)程中,每一步對(duì)敵方威脅性的也隨之增加(圖 C)。

由于實(shí)驗(yàn)中出現(xiàn)了異常值,研究者探討了其背后的潛在語(yǔ)義。

如下圖,少數(shù)紅色點(diǎn)位置遠(yuǎn)離主流分布,殘差值也在紅虛線之上,說(shuō)明人類(lèi)對(duì)棋局判斷 c 函數(shù)與 g 函數(shù)有明顯差異。

研究團(tuán)隊(duì)發(fā)現(xiàn),這些值對(duì)應(yīng)棋局中,人類(lèi)判斷為白方有利,同時(shí),黑方皇后都能在兌子(exchange)過(guò)程中被進(jìn)一步吃掉。

研究者推斷認(rèn)為,這是源于 AlphaZero 的 Value Head 與參考評(píng)價(jià)函數(shù)編碼方式與參考系統(tǒng)的不同。

此外,研究者還觀察了人類(lèi)棋手及國(guó)際象棋編程所看重的重要參數(shù),隨訓(xùn)練過(guò)程的變化,其中包括:國(guó)王安全度(King Safety)、一方棋子總戰(zhàn)力(Material)、機(jī)動(dòng)性(Mobility)、走棋威脅性(Threats)等。

結(jié)果顯示,它們?cè)诔跏记闆r下幾乎為零,但隨著訓(xùn)練不斷往下進(jìn)行,以國(guó)王安全度(King Safety)、一方棋子總戰(zhàn)力(Material)為代表,部分參數(shù)在模型中的權(quán)重明顯上升。

這讓研究者相信,通過(guò)訓(xùn)練過(guò)程,AlphaZero 已經(jīng)逐漸掌握了原本沒(méi)有教給它的相關(guān)重要概念或者說(shuō)知識(shí)。

最后,研究者還著重看了看開(kāi)局演變與下棋風(fēng)格,發(fā)現(xiàn) AlphaZero 隨時(shí)間推移,下棋路徑選擇范圍在縮小,而人類(lèi)下棋偏好和路徑在變多。

科研人員表示,目前原因尚不清楚,但它反應(yīng)了人與機(jī)器神經(jīng)網(wǎng)絡(luò)之間的根本差異。

關(guān)于后續(xù)研究方向,作者提出,下一步希望能探索 AI 模型能否超越人類(lèi)的認(rèn)知概念范圍,去掌握學(xué)會(huì)新的東西。

團(tuán)隊(duì)介紹

本文一作 Thomas McGrath 來(lái)自 DeepMind,博士畢業(yè)于倫敦帝國(guó)學(xué)院,主要研究領(lǐng)域包括 ML、人工智能安全及可解釋性。

二作 Andrei Kapishnikov,來(lái)自 Google Brain,主攻人工智能應(yīng)用領(lǐng)域,早前曾在 VMware 及 Oracle 從事技術(shù)工作。

值得一提的是,國(guó)際象棋大師 Vladimir Kramnik 也參與了該項(xiàng)目的研究。

參考鏈接:

  • [1]https://twitter.com/weballergy/status/1461281358324588544

  • [2]https://www.pnas.org/doi/10.1073/pnas.2206625119

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:詹士

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AlphaZero,AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知