中科院訓(xùn)練獼猴玩《吃豆人》游戲

2022/5/27 22:54:14 來(lái)源：IT之家作者：汪淼責(zé)編：汪淼

評(píng)論：

IT之家 5 月 27 日消息，中科院發(fā)布消息，近日，eLife 在線發(fā)表了題為《獼猴在吃豆人游戲中的分層組合策略》的研究論文。該研究由中國(guó)科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心（神經(jīng)科學(xué)研究所）、靈長(zhǎng)類神經(jīng)生物學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室楊天明研究組完成。

該研究設(shè)計(jì)了一種新穎有趣的實(shí)驗(yàn)范式 —— 吃豆人游戲，并訓(xùn)練獼猴學(xué)會(huì)使用搖桿完成該游戲范式的主要任務(wù)。該研究將復(fù)雜的行為范式和人工智能建模結(jié)合，定量探究了獼猴解決復(fù)雜問(wèn)題的啟發(fā)式行為策略特點(diǎn)，為闡釋大腦實(shí)現(xiàn)高級(jí)認(rèn)知功能的計(jì)算機(jī)制提供了全新方法和重要啟發(fā)。

據(jù)介紹，日常生活中，人們大部分的重要目標(biāo)通常超出簡(jiǎn)單決策的實(shí)現(xiàn)范疇，而這些目標(biāo)可以通過(guò)設(shè)計(jì)一系列縝密的基礎(chǔ)策略組合來(lái)實(shí)現(xiàn)。個(gè)體可以根據(jù)當(dāng)前的情況優(yōu)先考慮每一種策略的收益和風(fēng)險(xiǎn)，并在較容易完成的子任務(wù)中具體問(wèn)題具體分析。

高度動(dòng)態(tài)變化的環(huán)境會(huì)時(shí)刻伴隨著出乎意料的意外和干擾，因此保持相機(jī)而變的靈活性在決策過(guò)程中至關(guān)重要。盡管研究動(dòng)物的復(fù)雜行為和潛在的神經(jīng)機(jī)制在神經(jīng)科學(xué)和認(rèn)知科學(xué)領(lǐng)域是持續(xù)受到關(guān)注的科學(xué)問(wèn)題，但大部分的動(dòng)物行為范式復(fù)雜程度，均不足以支持研究動(dòng)物如何簡(jiǎn)化動(dòng)態(tài)多樣的策略以完成復(fù)雜的高級(jí)認(rèn)知任務(wù)。

中科院訓(xùn)練獼猴玩《吃豆人》游戲

為解決這些問(wèn)題，該研究改編經(jīng)典街機(jī)游戲吃豆人（圖 A），并訓(xùn)練獼猴學(xué)會(huì)使用操縱桿來(lái)控制吃豆人在一個(gè)封閉的迷宮中運(yùn)動(dòng)收集食物，獼猴避開(kāi)敵人追擊將獲得實(shí)時(shí)果汁作為獎(jiǎng)勵(lì)。在經(jīng)過(guò)一段時(shí)間的訓(xùn)練后，獼猴能夠理解游戲中各個(gè)元素和獎(jiǎng)勵(lì)懲罰之前的關(guān)聯(lián)，并依次相應(yīng)地做出連續(xù)的運(yùn)動(dòng)抉擇，來(lái)躲避敵人的追擊，獲取更多的獎(jiǎng)勵(lì)，甚至在特定規(guī)則下對(duì)敵人實(shí)現(xiàn)反殺。雖然該游戲高度動(dòng)態(tài)且元素復(fù)雜，但本質(zhì)上它比較類似動(dòng)物野外覓食任務(wù)，這或是該研究成功訓(xùn)練動(dòng)物的關(guān)鍵要素。

為定量地描述獼猴行為策略的特點(diǎn)，科研人員利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法，動(dòng)態(tài)擬合匹配游戲玩法與多個(gè)智能策略模型。這種多智能體協(xié)作決策模型也是人工智能領(lǐng)域?qū)崿F(xiàn)吃豆人游戲最高分?jǐn)?shù)的設(shè)計(jì)關(guān)鍵。該計(jì)算模型設(shè)計(jì)了一組策略基組，策略基組中每個(gè)策略均只解決游戲中一個(gè)子任務(wù)，例如覓食最近的食物、躲避敵人追擊或通過(guò)能量豆食物改變敵人的狀態(tài)。

該模型將不同的策略基組對(duì)比擬合到到獼猴的游戲行為數(shù)據(jù)中，推斷策略的動(dòng)態(tài)權(quán)重。該計(jì)算模型對(duì)獼猴手柄運(yùn)動(dòng)的預(yù)測(cè)準(zhǔn)確率達(dá) 90% 以上。更重要的是，策略動(dòng)態(tài)權(quán)重分析發(fā)現(xiàn)，獼猴通過(guò)使用分而治之的啟發(fā)式方法，在每個(gè)時(shí)間只關(guān)注游戲的一個(gè)子任務(wù)，分布式地解決這些問(wèn)題，從而實(shí)現(xiàn)游戲總體目標(biāo)的優(yōu)化。研究發(fā)現(xiàn)獼猴能夠在時(shí)序上組合這些策略基組，構(gòu)建更復(fù)雜的復(fù)合策略，來(lái)處理特定的更有挑戰(zhàn)性的任務(wù)。研究表明，獼猴能夠優(yōu)化掌握一套策略基組，并采用分層決策的方式來(lái)解決復(fù)雜的任務(wù)（圖 B）。

本研究著眼于系統(tǒng)認(rèn)知神經(jīng)科學(xué)和人工智能廣泛關(guān)注的交叉領(lǐng)域，將復(fù)雜的行為范式和嚴(yán)謹(jǐn)?shù)挠?jì)算建模進(jìn)行結(jié)合，為未來(lái)探索靈長(zhǎng)類動(dòng)物的高級(jí)認(rèn)知提供了重要的實(shí)驗(yàn)證據(jù)和新穎的分析方法。IT之家了解到，研究工作得到科技部、中科院、上海市科學(xué)技術(shù)委員會(huì)和國(guó)家自然科學(xué)基金委員會(huì)的支持。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

中科院訓(xùn)練獼猴玩《吃豆人》游戲

相關(guān)文章