設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

登上《科學(xué)機器人》封面:谷歌 DeepMind 強化學(xué)習(xí)打造超一流機器球員

新智元 2024/4/13 22:25:06 責(zé)編:問舟

雙足機器人運動技能突破!谷歌 DeepMind 創(chuàng)新深度強化學(xué)習(xí)框架,賦能仿人機器人全身控制,征戰(zhàn)足球賽場。機器人展現(xiàn)驚人動態(tài)技能,跌倒自恢復(fù),戰(zhàn)術(shù)防守樣樣精通。

AI 和機器人專家的長遠目標(biāo),是創(chuàng)造出具有一般具身智能的代理,它們能夠像動物或人類一樣,在物理世界中靈活、巧妙地行動。

這不僅涉及流暢的動作組合,還包括對環(huán)境的感知與理解,以及利用身體實現(xiàn)復(fù)雜目標(biāo)的能力。

多年來,研究者們致力于在仿真和真實環(huán)境中創(chuàng)造出具備復(fù)雜運動能力的智能化身代理。

最近,這一領(lǐng)域取得了顯著的進展,其中深度強化學(xué)習(xí)發(fā)揮了至關(guān)重要的作用。

盡管四足機器人的應(yīng)用已經(jīng)相當(dāng)廣泛,但人形和雙足機器人的控制仍然面臨著諸多挑戰(zhàn),包括穩(wěn)定性、安全性以及自由度等問題。

不過,近日 Google DeepMind 在仿人足球領(lǐng)域取得了突破性進展 ——

研究團隊不僅展示了深度強化學(xué)習(xí)如何孕育出高質(zhì)量的個體技能,如精準(zhǔn)的踢球、快速的奔跑和靈活的轉(zhuǎn)身,更將這些技能巧妙地編織成一套敏捷的反應(yīng)策略。

目前,相關(guān)成果已發(fā)表于《Science Robotics》,并成為該期的封面論文。

論文地址:https://www.science.org/ doi / 10.1126 / scirobotics.adi8022

ROBOTIS OP3 機器人平臺

研究人員采用 ROBOTIS OP3 機器人平臺,這款微型仿人機器人經(jīng)濟實惠,擁有 20 個可控關(guān)節(jié),其靈活性足以應(yīng)對復(fù)雜的足球動作。

在訓(xùn)練中,機器人僅依靠板載傳感器如關(guān)節(jié)位置加速計和陀螺儀來感知環(huán)境,并通過板載計算機計算目標(biāo)關(guān)節(jié)角度,實現(xiàn)精準(zhǔn)的動作執(zhí)行。

為了確保機器人能夠?qū)崟r掌握球場動態(tài),研究團隊還使用了實時運動捕捉系統(tǒng),實時監(jiān)測兩個機器人和球的位置。

簡化足球比賽驗證技能與策略

為了測試這些技能的實戰(zhàn)效果,研究人員精心設(shè)計了一場簡化的單對單足球比賽。

在這個競技場上,兩位「選手」—— 兩臺仿人足球機器人,展開了激烈的較量。

球賽的規(guī)則為:進球者獲得獎勵,過于靠近對手則會受到懲罰。

這種巧妙的游戲設(shè)定,使得機器人能夠在不斷試錯中,逐步學(xué)會如何在激烈的對抗中保持優(yōu)勢。

Teacher 策略提煉與 Student 策略集成

在訓(xùn)練過程中,研究人員采用了分布式 MPO 這一非策略強化學(xué)習(xí)算法,對機器人進行了多階段的仿真訓(xùn)練。

他們首先訓(xùn)練了兩個 teacher 策略,分別負責(zé)站立和射門,隨后通過 KL 正則化方法將這兩個策略融合,形成一個 student 策略。

隨著訓(xùn)練的深入,正則化逐漸減弱,最終行為得以自由優(yōu)化任務(wù)獎勵。

仿真訓(xùn)練對于機器人技能的磨練至關(guān)重要,但如何確保這些技能能夠安全穩(wěn)健地應(yīng)用于真實機器人,是另一個巨大的挑戰(zhàn)。

為此,研究團隊在訓(xùn)練和仿真中加入了多種噪音,如觀測噪音和仿真動力學(xué)模型擾動,以增強機器人的魯棒性。

同時,他們還增加了仿真中的延遲,同時盡降低真實機器人控制軟件中的延遲,確保機器人能夠迅速響應(yīng)。

鑒于機器人在進行動態(tài)踢踏運動時,其齒輪容易受到瞬時沖擊的影響,特別是膝蓋部位容易因此受損。

為了顯著降低機器人在游戲過程中由于高扭矩所引發(fā)的損壞風(fēng)險,研究團隊在仿真環(huán)境中特別針對膝關(guān)節(jié)產(chǎn)生的高扭矩設(shè)定了懲罰機制。

通過這一措施,成功地引導(dǎo)機器人學(xué)習(xí)和采用更為柔和、穩(wěn)定的步態(tài),顯著提高了其運動的安全性和穩(wěn)定性。

實戰(zhàn)表現(xiàn)展現(xiàn)高層次戰(zhàn)略意識

經(jīng)過這一系列訓(xùn)練,機器人展現(xiàn)出了令人驚嘆的足球技能。

它們不僅能夠快速起身和行走,還能在比賽中靈活應(yīng)對各種情況,如拒絕干擾、從跌倒中恢復(fù)、快速轉(zhuǎn)身射門和攔截移動中的球。

更令人驚訝的是,它們還表現(xiàn)出了高水平的戰(zhàn)略行為。比如,機器人會巧妙地利用位置優(yōu)勢,防御性地阻擋對手的射門,展現(xiàn)出與真實球員不相上下的競技水平。

參考資料:

  • https://www.science.org/doi/10.1126/scirobotics.adi8022

  • https://sites.google.com/view/op3-soccer

  • https://twitter.com/SciRobotics/status/1778124563001336155

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:機器人,谷歌,deepmind

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知