雙足機(jī)器人運(yùn)動技能突破!谷歌 DeepMind 創(chuàng)新深度強(qiáng)化學(xué)習(xí)框架,賦能仿人機(jī)器人全身控制,征戰(zhàn)足球賽場。機(jī)器人展現(xiàn)驚人動態(tài)技能,跌倒自恢復(fù),戰(zhàn)術(shù)防守樣樣精通。
AI 和機(jī)器人專家的長遠(yuǎn)目標(biāo),是創(chuàng)造出具有一般具身智能的代理,它們能夠像動物或人類一樣,在物理世界中靈活、巧妙地行動。
這不僅涉及流暢的動作組合,還包括對環(huán)境的感知與理解,以及利用身體實(shí)現(xiàn)復(fù)雜目標(biāo)的能力。
多年來,研究者們致力于在仿真和真實(shí)環(huán)境中創(chuàng)造出具備復(fù)雜運(yùn)動能力的智能化身代理。
最近,這一領(lǐng)域取得了顯著的進(jìn)展,其中深度強(qiáng)化學(xué)習(xí)發(fā)揮了至關(guān)重要的作用。
盡管四足機(jī)器人的應(yīng)用已經(jīng)相當(dāng)廣泛,但人形和雙足機(jī)器人的控制仍然面臨著諸多挑戰(zhàn),包括穩(wěn)定性、安全性以及自由度等問題。
不過,近日 Google DeepMind 在仿人足球領(lǐng)域取得了突破性進(jìn)展 ——
研究團(tuán)隊不僅展示了深度強(qiáng)化學(xué)習(xí)如何孕育出高質(zhì)量的個體技能,如精準(zhǔn)的踢球、快速的奔跑和靈活的轉(zhuǎn)身,更將這些技能巧妙地編織成一套敏捷的反應(yīng)策略。
目前,相關(guān)成果已發(fā)表于《Science Robotics》,并成為該期的封面論文。
ROBOTIS OP3 機(jī)器人平臺
研究人員采用 ROBOTIS OP3 機(jī)器人平臺,這款微型仿人機(jī)器人經(jīng)濟(jì)實(shí)惠,擁有 20 個可控關(guān)節(jié),其靈活性足以應(yīng)對復(fù)雜的足球動作。
在訓(xùn)練中,機(jī)器人僅依靠板載傳感器如關(guān)節(jié)位置加速計和陀螺儀來感知環(huán)境,并通過板載計算機(jī)計算目標(biāo)關(guān)節(jié)角度,實(shí)現(xiàn)精準(zhǔn)的動作執(zhí)行。
為了確保機(jī)器人能夠?qū)崟r掌握球場動態(tài),研究團(tuán)隊還使用了實(shí)時運(yùn)動捕捉系統(tǒng),實(shí)時監(jiān)測兩個機(jī)器人和球的位置。
簡化足球比賽驗(yàn)證技能與策略
為了測試這些技能的實(shí)戰(zhàn)效果,研究人員精心設(shè)計了一場簡化的單對單足球比賽。
在這個競技場上,兩位「選手」—— 兩臺仿人足球機(jī)器人,展開了激烈的較量。
球賽的規(guī)則為:進(jìn)球者獲得獎勵,過于靠近對手則會受到懲罰。
這種巧妙的游戲設(shè)定,使得機(jī)器人能夠在不斷試錯中,逐步學(xué)會如何在激烈的對抗中保持優(yōu)勢。
Teacher 策略提煉與 Student 策略集成
在訓(xùn)練過程中,研究人員采用了分布式 MPO 這一非策略強(qiáng)化學(xué)習(xí)算法,對機(jī)器人進(jìn)行了多階段的仿真訓(xùn)練。
他們首先訓(xùn)練了兩個 teacher 策略,分別負(fù)責(zé)站立和射門,隨后通過 KL 正則化方法將這兩個策略融合,形成一個 student 策略。
隨著訓(xùn)練的深入,正則化逐漸減弱,最終行為得以自由優(yōu)化任務(wù)獎勵。
仿真訓(xùn)練對于機(jī)器人技能的磨練至關(guān)重要,但如何確保這些技能能夠安全穩(wěn)健地應(yīng)用于真實(shí)機(jī)器人,是另一個巨大的挑戰(zhàn)。
為此,研究團(tuán)隊在訓(xùn)練和仿真中加入了多種噪音,如觀測噪音和仿真動力學(xué)模型擾動,以增強(qiáng)機(jī)器人的魯棒性。
同時,他們還增加了仿真中的延遲,同時盡降低真實(shí)機(jī)器人控制軟件中的延遲,確保機(jī)器人能夠迅速響應(yīng)。
鑒于機(jī)器人在進(jìn)行動態(tài)踢踏運(yùn)動時,其齒輪容易受到瞬時沖擊的影響,特別是膝蓋部位容易因此受損。
為了顯著降低機(jī)器人在游戲過程中由于高扭矩所引發(fā)的損壞風(fēng)險,研究團(tuán)隊在仿真環(huán)境中特別針對膝關(guān)節(jié)產(chǎn)生的高扭矩設(shè)定了懲罰機(jī)制。
通過這一措施,成功地引導(dǎo)機(jī)器人學(xué)習(xí)和采用更為柔和、穩(wěn)定的步態(tài),顯著提高了其運(yùn)動的安全性和穩(wěn)定性。
實(shí)戰(zhàn)表現(xiàn)展現(xiàn)高層次戰(zhàn)略意識
經(jīng)過這一系列訓(xùn)練,機(jī)器人展現(xiàn)出了令人驚嘆的足球技能。
它們不僅能夠快速起身和行走,還能在比賽中靈活應(yīng)對各種情況,如拒絕干擾、從跌倒中恢復(fù)、快速轉(zhuǎn)身射門和攔截移動中的球。
更令人驚訝的是,它們還表現(xiàn)出了高水平的戰(zhàn)略行為。比如,機(jī)器人會巧妙地利用位置優(yōu)勢,防御性地阻擋對手的射門,展現(xiàn)出與真實(shí)球員不相上下的競技水平。
參考資料:
https://www.science.org/doi/10.1126/scirobotics.adi8022
https://sites.google.com/view/op3-soccer
https://twitter.com/SciRobotics/status/1778124563001336155
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。