設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

賽車 AI 不再只圖一時爽,還學會了考慮長遠策略

量子位 2022/3/22 14:44:47 責編:遠洋

玩賽車游戲的 AI 們現(xiàn)在已經(jīng)不僅僅是圖快圖爽了。他們開始考慮戰(zhàn)術規(guī)劃,甚至有了自己的行車風格和“偏科”項目。

比如這位只擅長轉(zhuǎn)彎的“偏科”選手,面對急彎我重拳出擊,驚險漂移,面對直線我唯唯諾諾,搖晃不停:

還有具備長遠目光,學會了戰(zhàn)術規(guī)劃的 AI,也就是這兩位正在競速的中的綠色賽車,看似在轉(zhuǎn)彎處減緩了速度,卻得以順利通過急彎,免于直接 GG 的下場。

還有面對不管是多新的地圖,都能舉一反三,跑完全程的 AI??雌饋砭拖袷钦娴脑谫愜嚨郎蠈W會了思考一樣。(甚至上面所說的那位偏科選手還在不懈努力后成功逆襲了)

這項訓練結果一經(jīng)公布,便吸引了大批網(wǎng)友的圍觀:

強化學習讓 AI 學會“長遠考慮”

訓練賽道來自一款叫做《賽道狂飆》(Trackmania)的游戲,以可深度定制的賽道編輯器聞名于玩家群體。

為了更大程度上激發(fā)賽車 AI 的潛力,開發(fā)者自制了這樣一張九曲十八彎的魔鬼地圖:

這位開發(fā)者名叫 yoshtm,之間就已經(jīng)用 AI 玩過這款游戲,一度引發(fā)熱議:

一開始,yoshtm 采用的是一種監(jiān)督學習模型,擁有 2 個隱藏層。

模型包含了 16 個輸入,包括如汽車當前速度、加速度、路段位置等等,再通過神經(jīng)網(wǎng)絡對輸入?yún)?shù)進行分析,最終輸出 6 種動作中的一種:

基于這一模型架構,開發(fā)者讓多只 AI 在同一張地圖上競爭。通過多次迭代,不同 AI 的神經(jīng)網(wǎng)絡會出現(xiàn)細微的差別,結果最好的 AI 將最終脫穎而出。

這種方法確實能讓 AI 學會駕駛,不過也帶來了一個問題:AI 常常只能以速度或最終沖線的時間等單一指標來評估自己,難以更進一步。

這次,時隔兩年后的賽車 AI,不僅學會了從長遠出發(fā)制定策略(比如在急彎時對速度作出調(diào)整),還大幅提高了對新地圖的適應性。

主要原因就來自于開發(fā)者這次引入的新方法,強化學習。這種方法的核心概念是“獎勵”,即通過選擇帶來更多獎勵的行為,來不斷優(yōu)化最終效果。

在訓練賽車游戲中的 AI 時,yoshtm 定義的獎勵很常規(guī):速度越快獎勵越多,走錯路或掉下賽道就會懲罰。

但問題是,一些行動,比如在臨近轉(zhuǎn)彎時的加速或許能導致短期的正面獎勵,但從長遠來看卻可能會產(chǎn)生負面的后果。

于是,yoshtm 采用了一種叫做 Deep Q Learning 的方法。

這是一種無模型的強化學習技術,對于給定狀態(tài),它能夠比較可用操作的預期效用,同時還不需要環(huán)境模型。

Deep Q Learning 會通過深度網(wǎng)絡參數(shù) 的學習不斷提高 Q 值預測的準確性,也就是說,能夠使 AI 在賽車游戲中預測每個可能的行動的預期累積獎勵,從而“具備一種長遠的策略目光”。

隨機出生點幫 AI 改正“偏科”

接下來開始進行正式訓練。

yoshtm 的思路是,AI 會先通過隨機探索來盡可能多地收集地圖數(shù)據(jù),他將這一行為稱之為探索。探索的比例越高,隨機性也就越強,而隨著比例降低,AI 則會更加專注于贏取上述設置的獎勵,也即專注于跑圖。

不過,在訓練了近 3 萬次,探索比例降低到 5% 時,AI“卡關”了:

核心問題是 AI 出現(xiàn)了“偏科”。

由于前期經(jīng)歷了多個彎道的跑圖,所以 AI 出現(xiàn)了過擬合現(xiàn)象,面對長直線跑道這種新的賽道類型,一度車身不穩(wěn),搖搖晃晃,最終甚至選擇了“自殺”:

要如何解決這個問題呢?

yoshtm 并沒有選擇重新制作地圖,而是選擇修改 AI 的出生點:

每次開始訓練時,AI 的出發(fā)點都將在地圖上的一個隨機位置生成,同時速度和方向也會隨機。

這一辦法立竿見影,AI 終于開始能夠完整跑完一條賽道了。

接下來就是進行不斷訓練,最終,開發(fā)者 yoshtm 和 AI 比了一場,AI 在這次跑到了最好成績:6 分 20 秒。

雖然還是沒有真人操控的賽車跑得快,不過 AI 表現(xiàn)出了較強的場地適應性,對草地還是泥地都能立馬舉一反三。

yoshtm 最后這樣說道:《賽車狂飆》本來就是一個需要大量訓練的游戲,AI 當然也如此。至少我現(xiàn)在很確定,這個 AI 可以打敗大量的初學者。

參考鏈接:

[1]https://www.youtube.com/watch?v=SX08NT55YhA

[2]https://www.reddit.com/r/Games/comments/tcj32m/ai_learns_to_drive_from_scratch_in_trackmania/

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:AI人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知