AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

量子位 2022/11/17 22:18:05 責(zé)編：遠(yuǎn)生

評(píng)論：

AI 如何學(xué)到知識(shí)的？科學(xué)家敲開(kāi)了它的腦殼看了看。

這兩天，DeepMind 及谷歌大腦一篇文章被《美國(guó)國(guó)家科學(xué)院院刊》(PNAS) 收錄，其內(nèi)容正是以 5 年前發(fā)布的 AlphaZero 為例，研究神經(jīng)網(wǎng)絡(luò)如何獲取并理解國(guó)際象棋知識(shí)。

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

在內(nèi)容中，研究者重點(diǎn)關(guān)注了「神經(jīng)網(wǎng)絡(luò)是如何學(xué)習(xí)的」「知識(shí)又如何被量化表示」等問(wèn)題。

有意思的是，他們發(fā)現(xiàn)：

在沒(méi)有人類(lèi)對(duì)弈指導(dǎo)下，AlphaZero 仍形成了一套類(lèi)似專(zhuān)業(yè)棋手才懂的概念體系。研究者還進(jìn)一步探尋了這些概念何時(shí)何處形成。
此外，他們還對(duì)比了 AlphaZero 與人類(lèi)開(kāi)局棋風(fēng)的不同。

有網(wǎng)友感慨，這是個(gè)影響深遠(yuǎn)的工作：

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

也有人感慨，AlphaZero 能計(jì)算任何人類(lèi)行為特征了？！

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

欲知更多觀察結(jié)果，往下看。

掀起了神經(jīng)網(wǎng)絡(luò)的頭蓋骨

AlphaZero 于 2017 年由 DeepMind 發(fā)布并一鳴驚人。

這是一種神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)器，專(zhuān)精于棋類(lèi)，內(nèi)部包含了殘差網(wǎng)絡(luò)（ResNet）骨干網(wǎng)及分離的策略及價(jià)值 heads。

其輸出函數(shù)可表示如下，z 為國(guó)際象棋排布情況：

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

為研究 AlphaZero 如何「學(xué)習(xí)」的，研究者構(gòu)建了一個(gè)人類(lèi)理解國(guó)際象棋的函數(shù) c (z0)。其中，z0 為一個(gè)象棋特定排布概念，c (z0) 以專(zhuān)業(yè)國(guó)際象棋引擎 Stockfish 8 評(píng)估分?jǐn)?shù)作為參考。

再?gòu)?AlphaZero 角度，設(shè)一個(gè)廣義線性函數(shù) g (zd)，作為在不同層取值的探針。訓(xùn)練設(shè)定下，g (zd) 將不斷趨近??(??0)，研究者通過(guò)觀察 g (zd) 與??(??0) 近似情況，以確認(rèn)系統(tǒng)是否理解相關(guān)概念。

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

接著，研究團(tuán)隊(duì)隨機(jī)抽取了 10 萬(wàn)盤(pán)游戲作為訓(xùn)練集，觀察 AlphaZero 表現(xiàn)。

情況如下圖，結(jié)果顯示，隨著訓(xùn)練步數(shù)（step）及 ResNet 網(wǎng)絡(luò)塊數(shù)（block）越來(lái)越多，AlphaZero 表現(xiàn)出來(lái)的分?jǐn)?shù)越來(lái)越高（圖 A），對(duì)弈過(guò)程中，每一步對(duì)敵方威脅性的也隨之增加（圖 C）。

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

由于實(shí)驗(yàn)中出現(xiàn)了異常值，研究者探討了其背后的潛在語(yǔ)義。

如下圖，少數(shù)紅色點(diǎn)位置遠(yuǎn)離主流分布，殘差值也在紅虛線之上，說(shuō)明人類(lèi)對(duì)棋局判斷 c 函數(shù)與 g 函數(shù)有明顯差異。

研究團(tuán)隊(duì)發(fā)現(xiàn)，這些值對(duì)應(yīng)棋局中，人類(lèi)判斷為白方有利，同時(shí)，黑方皇后都能在兌子（exchange）過(guò)程中被進(jìn)一步吃掉。

研究者推斷認(rèn)為，這是源于 AlphaZero 的 Value Head 與參考評(píng)價(jià)函數(shù)編碼方式與參考系統(tǒng)的不同。

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

此外，研究者還觀察了人類(lèi)棋手及國(guó)際象棋編程所看重的重要參數(shù)，隨訓(xùn)練過(guò)程的變化，其中包括：國(guó)王安全度（King Safety）、一方棋子總戰(zhàn)力（Material）、機(jī)動(dòng)性（Mobility）、走棋威脅性（Threats）等。

結(jié)果顯示，它們?cè)诔跏记闆r下幾乎為零，但隨著訓(xùn)練不斷往下進(jìn)行，以國(guó)王安全度（King Safety）、一方棋子總戰(zhàn)力（Material）為代表，部分參數(shù)在模型中的權(quán)重明顯上升。

這讓研究者相信，通過(guò)訓(xùn)練過(guò)程，AlphaZero 已經(jīng)逐漸掌握了原本沒(méi)有教給它的相關(guān)重要概念或者說(shuō)知識(shí)。

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

最后，研究者還著重看了看開(kāi)局演變與下棋風(fēng)格，發(fā)現(xiàn) AlphaZero 隨時(shí)間推移，下棋路徑選擇范圍在縮小，而人類(lèi)下棋偏好和路徑在變多。

科研人員表示，目前原因尚不清楚，但它反應(yīng)了人與機(jī)器神經(jīng)網(wǎng)絡(luò)之間的根本差異。

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

關(guān)于后續(xù)研究方向，作者提出，下一步希望能探索 AI 模型能否超越人類(lèi)的認(rèn)知概念范圍，去掌握學(xué)會(huì)新的東西。

團(tuán)隊(duì)介紹

本文一作 Thomas McGrath 來(lái)自 DeepMind，博士畢業(yè)于倫敦帝國(guó)學(xué)院，主要研究領(lǐng)域包括 ML、人工智能安全及可解釋性。

二作 Andrei Kapishnikov，來(lái)自 Google Brain，主攻人工智能應(yīng)用領(lǐng)域，早前曾在 VMware 及 Oracle 從事技術(shù)工作。

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

值得一提的是，國(guó)際象棋大師 Vladimir Kramnik 也參與了該項(xiàng)目的研究。

參考鏈接：

[1]https://twitter.com/weballergy/status/1461281358324588544
[2]https://www.pnas.org/doi/10.1073/pnas.2206625119

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：詹士

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

掀起了神經(jīng)網(wǎng)絡(luò)的頭蓋骨

團(tuán)隊(duì)介紹

相關(guān)文章

AlphaZero 黑箱終于被打開(kāi)！登頂 5 年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘