登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

新智元 2024/4/13 22:25:06 責(zé)編：問舟

評(píng)論：

雙足機(jī)器人運(yùn)動(dòng)技能突破！谷歌 DeepMind 創(chuàng)新深度強(qiáng)化學(xué)習(xí)框架，賦能仿人機(jī)器人全身控制，征戰(zhàn)足球賽場(chǎng)。機(jī)器人展現(xiàn)驚人動(dòng)態(tài)技能，跌倒自恢復(fù)，戰(zhàn)術(shù)防守樣樣精通。

AI 和機(jī)器人專家的長(zhǎng)遠(yuǎn)目標(biāo)，是創(chuàng)造出具有一般具身智能的代理，它們能夠像動(dòng)物或人類一樣，在物理世界中靈活、巧妙地行動(dòng)。

這不僅涉及流暢的動(dòng)作組合，還包括對(duì)環(huán)境的感知與理解，以及利用身體實(shí)現(xiàn)復(fù)雜目標(biāo)的能力。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

多年來，研究者們致力于在仿真和真實(shí)環(huán)境中創(chuàng)造出具備復(fù)雜運(yùn)動(dòng)能力的智能化身代理。

最近，這一領(lǐng)域取得了顯著的進(jìn)展，其中深度強(qiáng)化學(xué)習(xí)發(fā)揮了至關(guān)重要的作用。

盡管四足機(jī)器人的應(yīng)用已經(jīng)相當(dāng)廣泛，但人形和雙足機(jī)器人的控制仍然面臨著諸多挑戰(zhàn)，包括穩(wěn)定性、安全性以及自由度等問題。

不過，近日 Google DeepMind 在仿人足球領(lǐng)域取得了突破性進(jìn)展 ——

研究團(tuán)隊(duì)不僅展示了深度強(qiáng)化學(xué)習(xí)如何孕育出高質(zhì)量的個(gè)體技能，如精準(zhǔn)的踢球、快速的奔跑和靈活的轉(zhuǎn)身，更將這些技能巧妙地編織成一套敏捷的反應(yīng)策略。

目前，相關(guān)成果已發(fā)表于《Science Robotics》，并成為該期的封面論文。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

論文地址：https://www.science.org/ doi / 10.1126 / scirobotics.adi8022

ROBOTIS OP3 機(jī)器人平臺(tái)

研究人員采用 ROBOTIS OP3 機(jī)器人平臺(tái)，這款微型仿人機(jī)器人經(jīng)濟(jì)實(shí)惠，擁有 20 個(gè)可控關(guān)節(jié)，其靈活性足以應(yīng)對(duì)復(fù)雜的足球動(dòng)作。

在訓(xùn)練中，機(jī)器人僅依靠板載傳感器如關(guān)節(jié)位置加速計(jì)和陀螺儀來感知環(huán)境，并通過板載計(jì)算機(jī)計(jì)算目標(biāo)關(guān)節(jié)角度，實(shí)現(xiàn)精準(zhǔn)的動(dòng)作執(zhí)行。

為了確保機(jī)器人能夠?qū)崟r(shí)掌握球場(chǎng)動(dòng)態(tài)，研究團(tuán)隊(duì)還使用了實(shí)時(shí)運(yùn)動(dòng)捕捉系統(tǒng)，實(shí)時(shí)監(jiān)測(cè)兩個(gè)機(jī)器人和球的位置。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

簡(jiǎn)化足球比賽驗(yàn)證技能與策略

為了測(cè)試這些技能的實(shí)戰(zhàn)效果，研究人員精心設(shè)計(jì)了一場(chǎng)簡(jiǎn)化的單對(duì)單足球比賽。

在這個(gè)競(jìng)技場(chǎng)上，兩位「選手」—— 兩臺(tái)仿人足球機(jī)器人，展開了激烈的較量。

球賽的規(guī)則為：進(jìn)球者獲得獎(jiǎng)勵(lì)，過于靠近對(duì)手則會(huì)受到懲罰。

這種巧妙的游戲設(shè)定，使得機(jī)器人能夠在不斷試錯(cuò)中，逐步學(xué)會(huì)如何在激烈的對(duì)抗中保持優(yōu)勢(shì)。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

Teacher 策略提煉與 Student 策略集成

在訓(xùn)練過程中，研究人員采用了分布式 MPO 這一非策略強(qiáng)化學(xué)習(xí)算法，對(duì)機(jī)器人進(jìn)行了多階段的仿真訓(xùn)練。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

他們首先訓(xùn)練了兩個(gè) teacher 策略，分別負(fù)責(zé)站立和射門，隨后通過 KL 正則化方法將這兩個(gè)策略融合，形成一個(gè) student 策略。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

隨著訓(xùn)練的深入，正則化逐漸減弱，最終行為得以自由優(yōu)化任務(wù)獎(jiǎng)勵(lì)。

仿真訓(xùn)練對(duì)于機(jī)器人技能的磨練至關(guān)重要，但如何確保這些技能能夠安全穩(wěn)健地應(yīng)用于真實(shí)機(jī)器人，是另一個(gè)巨大的挑戰(zhàn)。

為此，研究團(tuán)隊(duì)在訓(xùn)練和仿真中加入了多種噪音，如觀測(cè)噪音和仿真動(dòng)力學(xué)模型擾動(dòng)，以增強(qiáng)機(jī)器人的魯棒性。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

同時(shí)，他們還增加了仿真中的延遲，同時(shí)盡降低真實(shí)機(jī)器人控制軟件中的延遲，確保機(jī)器人能夠迅速響應(yīng)。

鑒于機(jī)器人在進(jìn)行動(dòng)態(tài)踢踏運(yùn)動(dòng)時(shí)，其齒輪容易受到瞬時(shí)沖擊的影響，特別是膝蓋部位容易因此受損。

為了顯著降低機(jī)器人在游戲過程中由于高扭矩所引發(fā)的損壞風(fēng)險(xiǎn)，研究團(tuán)隊(duì)在仿真環(huán)境中特別針對(duì)膝關(guān)節(jié)產(chǎn)生的高扭矩設(shè)定了懲罰機(jī)制。

通過這一措施，成功地引導(dǎo)機(jī)器人學(xué)習(xí)和采用更為柔和、穩(wěn)定的步態(tài)，顯著提高了其運(yùn)動(dòng)的安全性和穩(wěn)定性。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

實(shí)戰(zhàn)表現(xiàn)展現(xiàn)高層次戰(zhàn)略意識(shí)

經(jīng)過這一系列訓(xùn)練，機(jī)器人展現(xiàn)出了令人驚嘆的足球技能。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

它們不僅能夠快速起身和行走，還能在比賽中靈活應(yīng)對(duì)各種情況，如拒絕干擾、從跌倒中恢復(fù)、快速轉(zhuǎn)身射門和攔截移動(dòng)中的球。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

更令人驚訝的是，它們還表現(xiàn)出了高水平的戰(zhàn)略行為。比如，機(jī)器人會(huì)巧妙地利用位置優(yōu)勢(shì)，防御性地阻擋對(duì)手的射門，展現(xiàn)出與真實(shí)球員不相上下的競(jìng)技水平。

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

參考資料：

https://www.science.org/doi/10.1126/scirobotics.adi8022
https://sites.google.com/view/op3-soccer
https://twitter.com/SciRobotics/status/1778124563001336155

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

登上《科學(xué)機(jī)器人》封面：谷歌 DeepMind 強(qiáng)化學(xué)習(xí)打造超一流機(jī)器球員

ROBOTIS OP3 機(jī)器人平臺(tái)

簡(jiǎn)化足球比賽驗(yàn)證技能與策略

Teacher 策略提煉與 Student 策略集成

實(shí)戰(zhàn)表現(xiàn)展現(xiàn)高層次戰(zhàn)略意識(shí)

相關(guān)文章