現(xiàn)在,讓機(jī)械狗自己打滾一個(gè)小時(shí),它就能學(xué)會(huì)走路了!
步態(tài)看著相當(dāng)有模有樣:
還能扛住大棍子的一通狂懟:
就算是摔了個(gè)四仰八叉,翻個(gè)身自己又站起來了:
如此看來,訓(xùn)機(jī)械狗和普通訓(xùn)狗真是要沒什么兩樣了啊。
這就是 UC 伯克利大學(xué)帶來的最新成果,讓機(jī)器人直接在實(shí)際環(huán)境中訓(xùn)練學(xué)習(xí),不再依賴于模擬器。
應(yīng)用這一方法,研究人員在短時(shí)間內(nèi)訓(xùn)練出了 4 個(gè)機(jī)器人。
比如開頭看到的 1 小時(shí)學(xué)會(huì)走路的機(jī)械狗;
還有 2 個(gè)機(jī)械臂,在 8-10 小時(shí)實(shí)戰(zhàn)抓取后,表現(xiàn)接近于人類水平;
以及一個(gè)擁有計(jì)算機(jī)視覺的小機(jī)器人,在自己摸索 2 小時(shí)后,能絲滑地滾動(dòng)到指定位置。
該研究由 Pieter Abbeel 等人提出,Pieter Abbeel 是吳恩達(dá)的第一位博士生,前不久他剛剛獲得 2021 ACM 計(jì)算獎(jiǎng)(ACM Prize in Computing)。
目前,該方法的所有軟件基礎(chǔ)架構(gòu)已經(jīng)開源。
一個(gè)叫做“空想家”的算法
本文方法的 pipeline 大致可分為 4 步:
第一步,是先把機(jī)器人放在真實(shí)環(huán)境里,收集數(shù)據(jù)。
第二步,把這些數(shù)據(jù)傳輸?shù)?Replay Buffer。這一步驟就是利用歷史數(shù)據(jù)進(jìn)行訓(xùn)練、“總結(jié)經(jīng)驗(yàn)”,高效利用收集到的樣本。
第三步,World Model 會(huì)對(duì)已有經(jīng)驗(yàn)進(jìn)行學(xué)習(xí),然后“腦補(bǔ)”出策略。
第四步,再用演員評(píng)論家(Actor Critic)算法來提升策略梯度法的性能。
然后循環(huán)往復(fù),將已經(jīng)提煉出的辦法再使用到機(jī)器人身上,最后達(dá)到一種“自己摸索學(xué)習(xí)”的感覺。
具體來看,這里的核心環(huán)節(jié)是 World Model。
World Models 是 2018 年由 DAVID HA 等人提出的一種快速無監(jiān)督學(xué)習(xí)方式,獲得了 NIPS 2018 的 Oral Presentation。
它的核心理念是認(rèn)為人類是基于已有經(jīng)驗(yàn),形成了一個(gè)心理世界模型,我們所做的決定和行動(dòng)都是基于這個(gè)內(nèi)部模型。
比如人類在打棒球時(shí),做出反應(yīng)的速度遠(yuǎn)比視覺信息傳達(dá)到大腦中的快,那么在這種情況下還能正確回球的原因,就是因?yàn)榇竽X已經(jīng)做出了本能的預(yù)測(cè)。
此前,基于 World Model 這種“腦補(bǔ)”的學(xué)習(xí)方法,谷歌提出了 Dreamer 這種可擴(kuò)展的強(qiáng)化學(xué)習(xí)方法。
這一次提出的方法是在此基礎(chǔ)上,叫做 DayDreamer。
(貌似可以叫做空想家?)
具體來看,World Model 就是一個(gè)智能體模型。
它包括一個(gè)視覺感知組件,能將看到的圖像壓縮成一個(gè)低維的表征向量作為模型輸入。
同時(shí)還有一個(gè)記憶組件,可以基于歷史信息,對(duì)未來的表征向量做出預(yù)測(cè)。
最后,還包括一個(gè)決策組件,它能基于視覺感知組件、決策組件的表征向量,決定采取怎樣的動(dòng)作。
現(xiàn)在,我們回到本次 UC 伯克利學(xué)者提出的方法。
不難發(fā)現(xiàn),其中 World Model Learning 部分的邏輯就是一個(gè)經(jīng)驗(yàn)積累的過程,Behavior Learning 部分則是一個(gè)動(dòng)作輸出的過程。
本篇論文方法的提出,主要解決了機(jī)器人訓(xùn)練中兩方面的問題:
效率和準(zhǔn)確率。
一般來說,訓(xùn)練機(jī)器人的常規(guī)方法是強(qiáng)化學(xué)習(xí),通過反復(fù)實(shí)驗(yàn)來調(diào)整機(jī)器人的運(yùn)作。
不過這種方法往往需要非常大量的測(cè)試,才能達(dá)到很好的效果。
不僅效率低下,而且訓(xùn)練需要付出的成本也不低。
后來,不少人提出在模擬器中對(duì)機(jī)器人進(jìn)行訓(xùn)練,可以很好增效降本。
但是本文作者認(rèn)為,模擬器訓(xùn)練方法在準(zhǔn)確性方面的表現(xiàn)還是不夠好,只有真實(shí)的環(huán)境才能讓機(jī)器人達(dá)到最好的效果。
從結(jié)果來看,在訓(xùn)練機(jī)器狗的過程中,只花 10 分鐘時(shí)間,機(jī)器狗就能適應(yīng)自己的行為了。
和 SAC 方法對(duì)比來看,效果有明顯提升。
在機(jī)械臂訓(xùn)練過程中,這一新方法還克服了視覺定位和稀疏獎(jiǎng)勵(lì)的挑戰(zhàn),幾小時(shí)內(nèi)的訓(xùn)練成果明顯優(yōu)于其他方法。
研究團(tuán)隊(duì)
值得一提的是,本次帶來新成果的研究團(tuán)隊(duì)成員,也非常令人矚目。
其中,Pieter Abbeel 是吳恩達(dá)的開山大弟子。
他現(xiàn)在是 UC 伯克利電氣工程和計(jì)算機(jī)科學(xué)教授,伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室主任,伯克利 AI 研究院共同主任,曾加入過 OpenAI。
前不久,他還獲得了 2021 ACM 計(jì)算獎(jiǎng)(ACM Prize in Computing),以表彰其在機(jī)器人學(xué)習(xí)方面的貢獻(xiàn)。
與此同時(shí),他還是 AI 機(jī)器人公司 Covariant 的聯(lián)合創(chuàng)始人。
另一位 Ken Goldberg,也是 AI 領(lǐng)域的頂級(jí)專家。
他現(xiàn)在是 UC 伯克利工程教授,研究方向?yàn)閺?qiáng)化學(xué)習(xí)、人機(jī)交互等。
2005 年,他被評(píng)選為 IEEE 院士。
與此同時(shí),Goldberg 還是一位藝術(shù)家,是 UC 伯克利藝術(shù)、科技文化研討會(huì)的奠基人。
此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner 三人為共同一作。
其中 Philipp Wu 還只是 UC 伯克利一位大四的學(xué)生。
One More Thing
在觀看機(jī)械狗訓(xùn)練的視頻時(shí),我們發(fā)現(xiàn)研究人員使用的 Unitree 機(jī)械狗,這個(gè)品牌來自中國企業(yè)宇樹科技,之前登上過春晚的機(jī)器小牛,也來自它家。
而且,最近宇樹機(jī)器狗集體進(jìn)行 Go1 測(cè)試的視頻曝光,還在國外火了一波。
論文地址:
https://danijar.com/project/daydreamer/
參考鏈接:
https://worldmodels.github.io/
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。