機器人版科比、詹皇、C 羅真的來了!
只見「科比」后仰跳投,在賽場上大殺四方。
「C 羅」和「詹姆斯」也紛紛展示了自己的招牌慶祝動作。
以上這些還只是開胃菜,這款人形機器人還會側(cè)跳、前跳、前踢、右踢,甚至能夠完成深蹲、腿部拉伸等高難度動作。
更驚艷的是,它還會跳 APT 舞,非常嗨皮。
比起波士頓動力 Altas,如今人形機器人早已進化到人們難以想象的樣子。正如 Figure 創(chuàng)始人所言,人形機器人 iPhone 時刻即將到來。
那么,能夠成為「機器人界的科比」,究竟是用了什么魔法?
來自 CMU 和英偉達的華人研究團隊重磅提出 ASAP,一個「real2sim2real」模型,能讓人形機器人掌握非常流暢且動感的全身控制動作。
它包含了兩大階段 —— 預訓練和后訓練。
在第一個階段中,通過重定向的人體數(shù)據(jù),在仿真環(huán)境中預訓練運動跟蹤策略。
在第二階段,將這些策略部署到現(xiàn)實世界,并收集真實世界數(shù)據(jù),訓練一個 delta 動作模型,來彌補動力學差異。
然后,ASAP 把這個 delta 動作模型集成到仿真器中,對預訓練策略進行微調(diào),讓它和現(xiàn)實世界的動力學更匹配。
英偉達高級研究科學家 Jim Fan 激動地表示,我們通過 RL 讓人形機器人成功模仿 C 羅、詹姆斯和科比!
這些神經(jīng)網(wǎng)絡(luò)模型,正在英偉達 GEAR 實驗室的真實硬件平臺上運行。
在網(wǎng)上看到的多數(shù)機器人演示視頻都是經(jīng)過加速處理的,而我們特意「放慢動作速度」,讓你能清晰觀賞每個流暢的動作細節(jié)。
我們提出的 ASAP 模型采用了「真實 → 仿真 → 真實」方法,成功實現(xiàn)了人形機器人全身控制所需的超平滑動態(tài)運動。
我們首先在仿真環(huán)境對機器人進行預訓練,但面臨眾所周知的仿真與現(xiàn)實差距:人工設(shè)計的物理方程難以準確模擬真實世界的動力學特性。
我們的解決方案簡明有效:將預訓練策略部署到實體機器人采集數(shù)據(jù),隨后在仿真環(huán)境回放動作記錄。雖然回放過程必然產(chǎn)生偏差,但這些誤差恰恰成為修正物理差異的關(guān)鍵數(shù)據(jù)源。通過額外神經(jīng)網(wǎng)絡(luò)學習差異參數(shù),本質(zhì)上是對傳統(tǒng)物理引擎進行「動態(tài)校準」,使機器人能依托 GPU 的并行計算能力,在仿真環(huán)境中獲得近乎真實的大規(guī)模訓練體驗。
未來屬于混合仿真時代:既繼承經(jīng)典仿真引擎數(shù)十年錘煉的精準優(yōu)勢,又融合現(xiàn)代神經(jīng)網(wǎng)絡(luò)捕捉復雜現(xiàn)實世界的超凡能力,實現(xiàn)兩者的協(xié)同進化。
一直以來,sim2real 是實現(xiàn)空間與具身智能的主要路徑之一,被廣泛應(yīng)用在機器人仿真評估當中。
而 real2sim2real 直接打破了繁瑣的動作微調(diào)的難題,彌合 sim2real 的差距,讓機器人能夠模仿各種類人的動作。
Jim Fan 對此暢想道,2030 年的人形機器人奧運會一定會是一場盛宴!
有網(wǎng)友期待地表示,真想看看它們打拳擊的表現(xiàn)。
ASAP,機器人奧運會不遠了
由于仿真環(huán)境和現(xiàn)實世界的動力學差異,人形機器人想實現(xiàn)敏捷又協(xié)調(diào)的全身運動仍是巨大的挑戰(zhàn)。
現(xiàn)有方法,如系統(tǒng)識別(SysID)和域隨機化(DR)通常要花大量時間調(diào)整參數(shù),或者生成的策略過于保守,動作不夠敏捷。
本文提出了 ASAP(Aligning Simulation and Real Physics)是一個兩階段框架,旨在解決動力學不匹配問題,實現(xiàn)敏捷的人形機器人全身動作。
ASAP 實現(xiàn)了許多以前很難做到的高難度動作,展現(xiàn)出 delta 動作學習在縮小仿真與現(xiàn)實動力學差距方面的潛力。
ASAP 為「sim-to-real」提供了一個很有前景的方案,為開發(fā)更靈活、更敏捷的人形機器人指明了方向。
ASAP 具體步驟如下:
運動跟蹤預訓練與真實軌跡收集:先從真人視頻中提取動作并重定向到機器人上,預訓練多個運動跟蹤策略,生成真實世界的運動軌跡。
Delta 動作模型訓練:基于真實世界軌跡數(shù)據(jù),訓練 Delta 動作模型,縮小仿真狀態(tài)與真實世界狀態(tài)之間的差異。
策略微調(diào):Delta 動作模型訓練完成后,將其集成到仿真器中,使仿真器能匹配真實世界的物理特性,隨后對之前預訓練的運動跟蹤策略進行微調(diào)。
真實世界部署:最后,直接在真實環(huán)境中部署微調(diào)后的策略,此時就不再需要 Delta 動作模型了。
提出 ASAP 框架:運用強化學習和真實世界的數(shù)據(jù)來訓練 delta 動作模型,有效縮小了仿真與現(xiàn)實之間的差距。
成功在真實環(huán)境部署全身控制策略,實現(xiàn)了不少以前人形機器人難以做到的動作。
仿真和現(xiàn)實環(huán)境中的大量實驗表明,ASAP 能夠有效減少動力學不匹配問題,讓機器人做出高度敏捷的動作,同時顯著降低運動跟蹤誤差。
為了促進不同仿真器之間的平滑遷移,研究者開發(fā)并開源了一個多仿真器訓練與評估代碼庫,以加快后續(xù)研究。
https://x.com/DrJimFan/status/1886824152272920642
https://agile.human2humanoid.com/
兩階段:預訓練 + 后訓練
ASAP 包含兩個階段:預訓練階段和后訓練階段。
在預訓練階段,研究團隊將真人運動視頻作為數(shù)據(jù)來源,在仿真環(huán)境中訓練動作跟蹤策略。
先將這些運動數(shù)據(jù)重定向到人形機器人上,然后訓練一個基于相位條件的運動跟蹤策略,讓機器人模仿重定向后的動作。然而,如果將這一策略部署到真實硬件上,由于動力學差異,機器人的性能會下降。
為解決這一問題,在后訓練階段需要收集真實世界的運行數(shù)據(jù),包括本體感知狀態(tài),以及由動作捕捉系統(tǒng)記錄的位置信息。隨后,在仿真環(huán)境中回放這些數(shù)據(jù),動力學差異就會以跟蹤誤差的形式表現(xiàn)出來。
接著,訓練一個 delta 動作模型,通過縮小真實世界和仿真狀態(tài)的差異,學習如何補償這些偏差。這個模型實際上是動力學誤差的修正項。
最后,研究者借助 delta 動作模型對預訓練的策略進行微調(diào),使其能夠更好地適應(yīng)真實世界的物理環(huán)境,從而實現(xiàn)更穩(wěn)定、敏捷的運動控制。
總的來說,這項研究的貢獻如下:
評估
評估中,研究人員針對三種策略遷移進行了廣泛的實驗研究:IsaacGym 到 IsaacSim、IsaacGym 到 Genesis,以及 IsaacGym 到真實世界的 Unitree G1 人形機器人。
接下來,他們一共回答了三個問題。
Q1:ASAP 能否優(yōu)于其他基線方法,以補償動力學失配問題?
表 III 中的定量結(jié)果表明,ASAP 在所有重放動作長度上都持續(xù)優(yōu)于 OpenLoop 基線,實現(xiàn)了更低的 Eg-mpjpe 和 Empjpe 值,這表明與測試環(huán)境軌跡的對齊程度更好。
雖然 SysID 有助于解決短期動力學差距,但由于累積誤差的增加,它在長期場景中表現(xiàn)不佳。
DeltaDynamics 在長期場景中相比 SysID 和 OpenLoop 有所改進,但存在過擬合問題,這從下圖 5 中隨時間放大的級聯(lián)誤差可以看出。
然而,ASAP 通過學習有效彌合動力學差距的殘差策略,展示出了優(yōu)越的泛化能力。
同時,作者在 Genesis 模擬器中也觀察到了類似的趨勢,ASAP 相對于基線在所有指標上都取得了顯著改進。
這些結(jié)果強調(diào)了學習增量動作模型,在減少物理差距和改善開環(huán)重放(open-loop replay)性能方面的有效性。
Q2:ASAP 能否在策略微調(diào)方面,優(yōu)于 SysID 和 Delta Dynamics?
為了解決問題 2,研究人員評估了不同方法在微調(diào)強化學習策略,以提高測試環(huán)境性能方面的有效性。
如表 IV 所示,ASAP 在兩個模擬器(IsaacSim 和 Genesis)的所有難度級別(簡單、中等和困難)中都持續(xù)優(yōu)于 Vanilla、SysID 和 DeltaDynamics 等基線方法。
對于簡單級別,ASAP 在 IsaacSim(Eg-mpjpe=106 和 Empjpe=44.3)和 Genesis(Eg-mpjpe=125 和 Empjpe=73.5)中都達到了最低的 Eg-mpjpe 和 Empjpe,同時具有最小的加速度(Eacc)和速度(Evel)誤差。
在更具挑戰(zhàn)性的任務(wù)中,如困難級別,最新方法的表現(xiàn)依舊出色,顯著降低了運動跟蹤誤差。
例如,在 Genesis 中,它實現(xiàn)了 Eg-mpjpe=129 和 Empjpe=77.0,大幅優(yōu)于 SysID 和 DeltaDynamics。
此外,ASAP 在兩個模擬器中始終保持 100% 的成功率,而 DeltaDynamics 在更困難的環(huán)境中的成功率較低。
為了進一步說明 ASAP 的優(yōu)勢,研究人員在圖 7 中提供了逐步可視化比較,對比了 ASAP 與未經(jīng)微調(diào)直接部署的強化學習策略。
這些可視化結(jié)果表明,ASAP 成功適應(yīng)了新的動力學環(huán)境并保持穩(wěn)定的跟蹤性能,而基線方法則隨時間累積誤差,導致跟蹤能力下降。
這些結(jié)果突顯了,新方法在解決仿真到現(xiàn)實差距方面的魯棒性和適應(yīng)性,同時防止過擬合和利用。
研究結(jié)果驗證了 ASAP 是一個有效的范式,可以提高閉環(huán)性能并確保在復雜的現(xiàn)實場景中可靠部署。
Q3:ASAP 是否適用于 sim2real 遷移?
針對第三個問題,研究人員在真實的 Unitree G1 機器人上驗證了 ASAP 的有效性。
由于傳感器輸入噪聲、機器人建模不準確和執(zhí)行器差異等因素,仿真到現(xiàn)實的差距比模擬器之間的差異更為顯著。
為了評估 ASAP 在解決這些差距方面的有效性,他們在兩個代表性的運動跟蹤任務(wù)(踢腿和「Silencer」)中比較了 ASAP 與 Vanilla 基線的閉環(huán)性能,這些任務(wù)中存在明顯的仿真到現(xiàn)實差距。
為了展示所學習的增量動作模型對分布外運動的泛化能力,作者還對勒布朗?詹姆斯「Silencer」動作進行了策略微調(diào),如圖 1 和圖 8 所示。
結(jié)果表明,ASAP 在分布內(nèi)和分布外的人形機器人運動跟蹤任務(wù)中都優(yōu)于基線方法,在所有關(guān)鍵指標(Eg-mpjpe、Empjpe、Eacc 和 Evel)上都實現(xiàn)了顯著的跟蹤誤差減少。
這些發(fā)現(xiàn)突顯了 ASAP 在改進敏捷人形機器人運動跟蹤的仿真到現(xiàn)實遷移方面的有效性。
再接下來,研究人員就三個核心問題來全面分析 ASAP。
首先是,如何最好地訓練 ASAP 的增量動作模型?
具體來說,他們研究了數(shù)據(jù)集大小、訓練時域和動作范數(shù)權(quán)重的影響,評估它們對開環(huán)和閉環(huán)性能的影響,如下圖 10 所示,給出了所有因素下的實驗結(jié)果。
其次,如何最好地使用 ASAP 的增量動作模型?
如下圖 11 所示,強化學習微調(diào)在部署過程中實現(xiàn)了最低的跟蹤誤差,優(yōu)于免訓練方法。
兩種無強化學習的方法都具有短視性,并且存在分布外問題,這限制了它們在現(xiàn)實世界中的適用性。
Q6:ASAP 為什么有效以及如何發(fā)揮作用?
研究人員驗證了 ASAP 優(yōu)于基于隨機動作噪聲的微調(diào),并可視化了 Delta 動作模型在各個關(guān)節(jié)上的平均輸出幅度。
調(diào)整噪聲強度參數(shù),能降低全局跟蹤誤差(MPJPE)。
圖 13 可視化了在 IsaacSim 訓練得到的 Delta 動作模型的平均輸出,結(jié)果揭示了不同關(guān)節(jié)的動力學誤差并不均勻。踝關(guān)節(jié)和膝關(guān)節(jié)的誤差最顯著。
作者介紹
Tairan He(何泰然)
共同一作 Tairan He 是卡內(nèi)基梅隆大學機器人研究所的二年級博士生,由 Guanya Shi(石冠亞)和 Changliu Liu(劉暢流)。同時,也是 NVIDIA GEAR 小組的成員,該小組由 Jim Fan 和 Yuke Zhu 領(lǐng)導。
此前,他在上海交通大學獲得計算機科學學士學位,導師是 Weinan Zhang(張偉楠)。并曾在微軟亞洲研究院工作過一段時間。
他的研究目標是打造能改善每個人生活質(zhì)量的機器人;重點是如何為機器人構(gòu)建數(shù)據(jù)飛輪,使其獲得媲美人類的運動能力和語義理解能力,以及如何讓機器人既能安全可靠,又能靈活適應(yīng)各種環(huán)境,具備通用性和敏捷性來完成各類實用任務(wù);采用的是隨計算能力和數(shù)據(jù)規(guī)模擴展的機器學習方法。
Jiawei Gao(高嘉偉)
共同一作 Jiawei Gao 目前就讀于 CMU。他曾獲得了清華學士學位,曾與 Gao Huang 教授、Jiangmiao Pang 博士、Guanya Shi 教授合作,參與了強化學習算法及其在機器人領(lǐng)域應(yīng)用的相關(guān)項目。
他一直在思考人類智能的起源,以及如何構(gòu)建能夠像人類一樣學習和推理的機器。為此,他希望致力于研究通用決策算法,使機器能夠在復雜的物理世界中進行交互、學習和適應(yīng)。
除了研究興趣外,Jiawei Gao 也熱衷于歷史、哲學和社會學。個人學習鋼琴已有十年,是西方古典音樂的忠實愛好者,貝多芬和馬勒是我最喜歡的作曲家。同時,他也喜歡旅行和攝影。
Wenli Xiao
共同一作 Wenli Xiao 是卡內(nèi)基梅隆大學機器人研究所(MSR)的碩士生,由 Guanya Shi 教授和 John Dolan 教授指導。
他目前在 NVIDIA GEAR 實驗室擔任研究實習生,與 Jim Fan 博士和 Yuke Zhu 教授一起研究人形機器人基礎(chǔ)模型。
此前,他在香港中文大學(深圳)獲得電子信息工程專業(yè)學士學位。
Yuanhang Zhang(張遠航)
共同一作 Yuanhang Zhang 目前是 CMU 機器人研究所(CMU RI)的碩士生,目前在 LeCAR Lab 研究,導師是 Guanya Shi 教授。
此前,他曾在上海交通大學獲得了工學學士學位,期間 Hesheng Wang 教授 Danping Zou 教授指導。
本科期間,他擔任 SJTU VEX 機器人俱樂部的編程組負責人,并參與了無人車(UV)和無人機(UAV)相關(guān)的各類競賽。
他的研究興趣包括機器人學、機器學習和最優(yōu)控制。目前,他本人的研究方向是人形機器人和空中操控。
參考資料:
本文來自微信公眾號:新智元(ID:AI_era),原標題《英偉達機器人跳 APT 舞驚艷全網(wǎng),科比 C 羅完美復刻!CMU 00 后華人共同一作》
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。