設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英偉達(dá)機(jī)器人跳 APT 舞流暢絲滑,科比 C 羅招牌動(dòng)作完美復(fù)刻

新智元 2025/2/5 13:07:16 責(zé)編:汪淼
感謝IT之家網(wǎng)友 軟媒新友1933769 的線索投遞!

機(jī)器人版科比、詹皇、C 羅真的來(lái)了!

只見「科比」后仰跳投,在賽場(chǎng)上大殺四方。

「C 羅」和「詹姆斯」也紛紛展示了自己的招牌慶祝動(dòng)作。

以上這些還只是開胃菜,這款人形機(jī)器人還會(huì)側(cè)跳、前跳、前踢、右踢,甚至能夠完成深蹲、腿部拉伸等高難度動(dòng)作。

更驚艷的是,它還會(huì)跳 APT 舞,非常嗨皮。

比起波士頓動(dòng)力 Altas,如今人形機(jī)器人早已進(jìn)化到人們難以想象的樣子。正如 Figure 創(chuàng)始人所言,人形機(jī)器人 iPhone 時(shí)刻即將到來(lái)。

那么,能夠成為「機(jī)器人界的科比」,究竟是用了什么魔法?

來(lái)自 CMU 和英偉達(dá)的華人研究團(tuán)隊(duì)重磅提出 ASAP,一個(gè)「real2sim2real」模型,能讓人形機(jī)器人掌握非常流暢且動(dòng)感的全身控制動(dòng)作

它包含了兩大階段 —— 預(yù)訓(xùn)練和后訓(xùn)練

在第一個(gè)階段中,通過(guò)重定向的人體數(shù)據(jù),在仿真環(huán)境中預(yù)訓(xùn)練運(yùn)動(dòng)跟蹤策略。

在第二階段,將這些策略部署到現(xiàn)實(shí)世界,并收集真實(shí)世界數(shù)據(jù),訓(xùn)練一個(gè) delta 動(dòng)作模型,來(lái)彌補(bǔ)動(dòng)力學(xué)差異。

然后,ASAP 把這個(gè) delta 動(dòng)作模型集成到仿真器中,對(duì)預(yù)訓(xùn)練策略進(jìn)行微調(diào),讓它和現(xiàn)實(shí)世界的動(dòng)力學(xué)更匹配。

英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 激動(dòng)地表示,我們通過(guò) RL 讓人形機(jī)器人成功模仿 C 羅、詹姆斯和科比!

這些神經(jīng)網(wǎng)絡(luò)模型,正在英偉達(dá) GEAR 實(shí)驗(yàn)室的真實(shí)硬件平臺(tái)上運(yùn)行。

在網(wǎng)上看到的多數(shù)機(jī)器人演示視頻都是經(jīng)過(guò)加速處理的,而我們特意「放慢動(dòng)作速度」,讓你能清晰觀賞每個(gè)流暢的動(dòng)作細(xì)節(jié)。

我們提出的 ASAP 模型采用了「真實(shí) → 仿真 → 真實(shí)」方法,成功實(shí)現(xiàn)了人形機(jī)器人全身控制所需的超平滑動(dòng)態(tài)運(yùn)動(dòng)。

我們首先在仿真環(huán)境對(duì)機(jī)器人進(jìn)行預(yù)訓(xùn)練,但面臨眾所周知的仿真與現(xiàn)實(shí)差距:人工設(shè)計(jì)的物理方程難以準(zhǔn)確模擬真實(shí)世界的動(dòng)力學(xué)特性。

我們的解決方案簡(jiǎn)明有效:將預(yù)訓(xùn)練策略部署到實(shí)體機(jī)器人采集數(shù)據(jù),隨后在仿真環(huán)境回放動(dòng)作記錄。雖然回放過(guò)程必然產(chǎn)生偏差,但這些誤差恰恰成為修正物理差異的關(guān)鍵數(shù)據(jù)源。通過(guò)額外神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)差異參數(shù),本質(zhì)上是對(duì)傳統(tǒng)物理引擎進(jìn)行「動(dòng)態(tài)校準(zhǔn)」,使機(jī)器人能依托 GPU 的并行計(jì)算能力,在仿真環(huán)境中獲得近乎真實(shí)的大規(guī)模訓(xùn)練體驗(yàn)。

未來(lái)屬于混合仿真時(shí)代:既繼承經(jīng)典仿真引擎數(shù)十年錘煉的精準(zhǔn)優(yōu)勢(shì),又融合現(xiàn)代神經(jīng)網(wǎng)絡(luò)捕捉復(fù)雜現(xiàn)實(shí)世界的超凡能力,實(shí)現(xiàn)兩者的協(xié)同進(jìn)化。

一直以來(lái),sim2real 是實(shí)現(xiàn)空間與具身智能的主要路徑之一,被廣泛應(yīng)用在機(jī)器人仿真評(píng)估當(dāng)中。

而 real2sim2real 直接打破了繁瑣的動(dòng)作微調(diào)的難題,彌合 sim2real 的差距,讓機(jī)器人能夠模仿各種類人的動(dòng)作。

Jim Fan 對(duì)此暢想道,2030 年的人形機(jī)器人奧運(yùn)會(huì)一定會(huì)是一場(chǎng)盛宴!

有網(wǎng)友期待地表示,真想看看它們打拳擊的表現(xiàn)。

ASAP,機(jī)器人奧運(yùn)會(huì)不遠(yuǎn)了

由于仿真環(huán)境和現(xiàn)實(shí)世界的動(dòng)力學(xué)差異,人形機(jī)器人想實(shí)現(xiàn)敏捷又協(xié)調(diào)的全身運(yùn)動(dòng)仍是巨大的挑戰(zhàn)。

現(xiàn)有方法,如系統(tǒng)識(shí)別(SysID)和域隨機(jī)化(DR)通常要花大量時(shí)間調(diào)整參數(shù),或者生成的策略過(guò)于保守,動(dòng)作不夠敏捷。

本文提出了 ASAP(Aligning Simulation and Real Physics)是一個(gè)兩階段框架,旨在解決動(dòng)力學(xué)不匹配問(wèn)題,實(shí)現(xiàn)敏捷的人形機(jī)器人全身動(dòng)作。

ASAP 實(shí)現(xiàn)了許多以前很難做到的高難度動(dòng)作,展現(xiàn)出 delta 動(dòng)作學(xué)習(xí)在縮小仿真與現(xiàn)實(shí)動(dòng)力學(xué)差距方面的潛力。

ASAP 為「sim-to-real」提供了一個(gè)很有前景的方案,為開發(fā)更靈活、更敏捷的人形機(jī)器人指明了方向。

ASAP 具體步驟如下:

  • 運(yùn)動(dòng)跟蹤預(yù)訓(xùn)練與真實(shí)軌跡收集:先從真人視頻中提取動(dòng)作并重定向到機(jī)器人上,預(yù)訓(xùn)練多個(gè)運(yùn)動(dòng)跟蹤策略,生成真實(shí)世界的運(yùn)動(dòng)軌跡。

  • Delta 動(dòng)作模型訓(xùn)練:基于真實(shí)世界軌跡數(shù)據(jù),訓(xùn)練 Delta 動(dòng)作模型,縮小仿真狀態(tài)與真實(shí)世界狀態(tài)之間的差異。

  • 策略微調(diào):Delta 動(dòng)作模型訓(xùn)練完成后,將其集成到仿真器中,使仿真器能匹配真實(shí)世界的物理特性,隨后對(duì)之前預(yù)訓(xùn)練的運(yùn)動(dòng)跟蹤策略進(jìn)行微調(diào)。

  • 真實(shí)世界部署:最后,直接在真實(shí)環(huán)境中部署微調(diào)后的策略,此時(shí)就不再需要 Delta 動(dòng)作模型了。

  • 兩階段:預(yù)訓(xùn)練 + 后訓(xùn)練

    ASAP 包含兩個(gè)階段:預(yù)訓(xùn)練階段和后訓(xùn)練階段。

    在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)將真人運(yùn)動(dòng)視頻作為數(shù)據(jù)來(lái)源,在仿真環(huán)境中訓(xùn)練動(dòng)作跟蹤策略。

    先將這些運(yùn)動(dòng)數(shù)據(jù)重定向到人形機(jī)器人上,然后訓(xùn)練一個(gè)基于相位條件的運(yùn)動(dòng)跟蹤策略,讓機(jī)器人模仿重定向后的動(dòng)作。然而,如果將這一策略部署到真實(shí)硬件上,由于動(dòng)力學(xué)差異,機(jī)器人的性能會(huì)下降。

    為解決這一問(wèn)題,在后訓(xùn)練階段需要收集真實(shí)世界的運(yùn)行數(shù)據(jù),包括本體感知狀態(tài),以及由動(dòng)作捕捉系統(tǒng)記錄的位置信息。隨后,在仿真環(huán)境中回放這些數(shù)據(jù),動(dòng)力學(xué)差異就會(huì)以跟蹤誤差的形式表現(xiàn)出來(lái)。

    接著,訓(xùn)練一個(gè) delta 動(dòng)作模型,通過(guò)縮小真實(shí)世界和仿真狀態(tài)的差異,學(xué)習(xí)如何補(bǔ)償這些偏差。這個(gè)模型實(shí)際上是動(dòng)力學(xué)誤差的修正項(xiàng)。

    最后,研究者借助 delta 動(dòng)作模型對(duì)預(yù)訓(xùn)練的策略進(jìn)行微調(diào),使其能夠更好地適應(yīng)真實(shí)世界的物理環(huán)境,從而實(shí)現(xiàn)更穩(wěn)定、敏捷的運(yùn)動(dòng)控制。

    總的來(lái)說(shuō),這項(xiàng)研究的貢獻(xiàn)如下:

  • 提出 ASAP 框架:運(yùn)用強(qiáng)化學(xué)習(xí)和真實(shí)世界的數(shù)據(jù)來(lái)訓(xùn)練 delta 動(dòng)作模型,有效縮小了仿真與現(xiàn)實(shí)之間的差距。

  • 成功在真實(shí)環(huán)境部署全身控制策略,實(shí)現(xiàn)了不少以前人形機(jī)器人難以做到的動(dòng)作。

  • 仿真和現(xiàn)實(shí)環(huán)境中的大量實(shí)驗(yàn)表明,ASAP 能夠有效減少動(dòng)力學(xué)不匹配問(wèn)題,讓機(jī)器人做出高度敏捷的動(dòng)作,同時(shí)顯著降低運(yùn)動(dòng)跟蹤誤差。

  • 為了促進(jìn)不同仿真器之間的平滑遷移,研究者開發(fā)并開源了一個(gè)多仿真器訓(xùn)練與評(píng)估代碼庫(kù),以加快后續(xù)研究。

  • 評(píng)估

    評(píng)估中,研究人員針對(duì)三種策略遷移進(jìn)行了廣泛的實(shí)驗(yàn)研究:IsaacGym 到 IsaacSim、IsaacGym 到 Genesis,以及 IsaacGym 到真實(shí)世界的 Unitree G1 人形機(jī)器人。

    接下來(lái),他們一共回答了三個(gè)問(wèn)題。

    Q1:ASAP 能否優(yōu)于其他基線方法,以補(bǔ)償動(dòng)力學(xué)失配問(wèn)題?

    表 III 中的定量結(jié)果表明,ASAP 在所有重放動(dòng)作長(zhǎng)度上都持續(xù)優(yōu)于 OpenLoop 基線,實(shí)現(xiàn)了更低的 Eg-mpjpe 和 Empjpe 值,這表明與測(cè)試環(huán)境軌跡的對(duì)齊程度更好。

    雖然 SysID 有助于解決短期動(dòng)力學(xué)差距,但由于累積誤差的增加,它在長(zhǎng)期場(chǎng)景中表現(xiàn)不佳。

    DeltaDynamics 在長(zhǎng)期場(chǎng)景中相比 SysID 和 OpenLoop 有所改進(jìn),但存在過(guò)擬合問(wèn)題,這從下圖 5 中隨時(shí)間放大的級(jí)聯(lián)誤差可以看出。

    然而,ASAP 通過(guò)學(xué)習(xí)有效彌合動(dòng)力學(xué)差距的殘差策略,展示出了優(yōu)越的泛化能力。

    同時(shí),作者在 Genesis 模擬器中也觀察到了類似的趨勢(shì),ASAP 相對(duì)于基線在所有指標(biāo)上都取得了顯著改進(jìn)。

    這些結(jié)果強(qiáng)調(diào)了學(xué)習(xí)增量動(dòng)作模型,在減少物理差距和改善開環(huán)重放(open-loop replay)性能方面的有效性。

    Q2:ASAP 能否在策略微調(diào)方面,優(yōu)于 SysID 和 Delta Dynamics?

    為了解決問(wèn)題 2,研究人員評(píng)估了不同方法在微調(diào)強(qiáng)化學(xué)習(xí)策略,以提高測(cè)試環(huán)境性能方面的有效性。

    如表 IV 所示,ASAP 在兩個(gè)模擬器(IsaacSim 和 Genesis)的所有難度級(jí)別(簡(jiǎn)單、中等和困難)中都持續(xù)優(yōu)于 Vanilla、SysID 和 DeltaDynamics 等基線方法。

    對(duì)于簡(jiǎn)單級(jí)別,ASAP 在 IsaacSim(Eg-mpjpe=106 和 Empjpe=44.3)和 Genesis(Eg-mpjpe=125 和 Empjpe=73.5)中都達(dá)到了最低的 Eg-mpjpe 和 Empjpe,同時(shí)具有最小的加速度(Eacc)和速度(Evel)誤差。

    在更具挑戰(zhàn)性的任務(wù)中,如困難級(jí)別,最新方法的表現(xiàn)依舊出色,顯著降低了運(yùn)動(dòng)跟蹤誤差。

    例如,在 Genesis 中,它實(shí)現(xiàn)了 Eg-mpjpe=129 和 Empjpe=77.0,大幅優(yōu)于 SysID 和 DeltaDynamics。

    此外,ASAP 在兩個(gè)模擬器中始終保持 100% 的成功率,而 DeltaDynamics 在更困難的環(huán)境中的成功率較低。

    為了進(jìn)一步說(shuō)明 ASAP 的優(yōu)勢(shì),研究人員在圖 7 中提供了逐步可視化比較,對(duì)比了 ASAP 與未經(jīng)微調(diào)直接部署的強(qiáng)化學(xué)習(xí)策略。

    這些可視化結(jié)果表明,ASAP 成功適應(yīng)了新的動(dòng)力學(xué)環(huán)境并保持穩(wěn)定的跟蹤性能,而基線方法則隨時(shí)間累積誤差,導(dǎo)致跟蹤能力下降。

    這些結(jié)果突顯了,新方法在解決仿真到現(xiàn)實(shí)差距方面的魯棒性和適應(yīng)性,同時(shí)防止過(guò)擬合和利用。

    研究結(jié)果驗(yàn)證了 ASAP 是一個(gè)有效的范式,可以提高閉環(huán)性能并確保在復(fù)雜的現(xiàn)實(shí)場(chǎng)景中可靠部署。

    Q3:ASAP 是否適用于 sim2real 遷移?

    針對(duì)第三個(gè)問(wèn)題,研究人員在真實(shí)的 Unitree G1 機(jī)器人上驗(yàn)證了 ASAP 的有效性。

    由于傳感器輸入噪聲、機(jī)器人建模不準(zhǔn)確和執(zhí)行器差異等因素,仿真到現(xiàn)實(shí)的差距比模擬器之間的差異更為顯著。

    為了評(píng)估 ASAP 在解決這些差距方面的有效性,他們?cè)趦蓚€(gè)代表性的運(yùn)動(dòng)跟蹤任務(wù)(踢腿和「Silencer」)中比較了 ASAP 與 Vanilla 基線的閉環(huán)性能,這些任務(wù)中存在明顯的仿真到現(xiàn)實(shí)差距。

    為了展示所學(xué)習(xí)的增量動(dòng)作模型對(duì)分布外運(yùn)動(dòng)的泛化能力,作者還對(duì)勒布朗?詹姆斯「Silencer」動(dòng)作進(jìn)行了策略微調(diào),如圖 1 和圖 8 所示。

    結(jié)果表明,ASAP 在分布內(nèi)和分布外的人形機(jī)器人運(yùn)動(dòng)跟蹤任務(wù)中都優(yōu)于基線方法,在所有關(guān)鍵指標(biāo)(Eg-mpjpe、Empjpe、Eacc 和 Evel)上都實(shí)現(xiàn)了顯著的跟蹤誤差減少。

    這些發(fā)現(xiàn)突顯了 ASAP 在改進(jìn)敏捷人形機(jī)器人運(yùn)動(dòng)跟蹤的仿真到現(xiàn)實(shí)遷移方面的有效性。

    再接下來(lái),研究人員就三個(gè)核心問(wèn)題來(lái)全面分析 ASAP。

    首先是,如何最好地訓(xùn)練 ASAP 的增量動(dòng)作模型?

    具體來(lái)說(shuō),他們研究了數(shù)據(jù)集大小、訓(xùn)練時(shí)域和動(dòng)作范數(shù)權(quán)重的影響,評(píng)估它們對(duì)開環(huán)和閉環(huán)性能的影響,如下圖 10 所示,給出了所有因素下的實(shí)驗(yàn)結(jié)果。

    其次,如何最好地使用 ASAP 的增量動(dòng)作模型?

    如下圖 11 所示,強(qiáng)化學(xué)習(xí)微調(diào)在部署過(guò)程中實(shí)現(xiàn)了最低的跟蹤誤差,優(yōu)于免訓(xùn)練方法。

    兩種無(wú)強(qiáng)化學(xué)習(xí)的方法都具有短視性,并且存在分布外問(wèn)題,這限制了它們?cè)诂F(xiàn)實(shí)世界中的適用性。

    Q6:ASAP 為什么有效以及如何發(fā)揮作用?

    研究人員驗(yàn)證了 ASAP 優(yōu)于基于隨機(jī)動(dòng)作噪聲的微調(diào),并可視化了 Delta 動(dòng)作模型在各個(gè)關(guān)節(jié)上的平均輸出幅度。

    調(diào)整噪聲強(qiáng)度參數(shù),能降低全局跟蹤誤差(MPJPE)。

    圖 13 可視化了在 IsaacSim 訓(xùn)練得到的 Delta 動(dòng)作模型的平均輸出,結(jié)果揭示了不同關(guān)節(jié)的動(dòng)力學(xué)誤差并不均勻。踝關(guān)節(jié)和膝關(guān)節(jié)的誤差最顯著。

    作者介紹

    Tairan He(何泰然)

    共同一作 Tairan He 是卡內(nèi)基梅隆大學(xué)機(jī)器人研究所的二年級(jí)博士生,由 Guanya Shi(石冠亞)和 Changliu Liu(劉暢流)。同時(shí),也是 NVIDIA GEAR 小組的成員,該小組由 Jim Fan 和 Yuke Zhu 領(lǐng)導(dǎo)。

    此前,他在上海交通大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,導(dǎo)師是 Weinan Zhang(張偉楠)。并曾在微軟亞洲研究院工作過(guò)一段時(shí)間。

    他的研究目標(biāo)是打造能改善每個(gè)人生活質(zhì)量的機(jī)器人;重點(diǎn)是如何為機(jī)器人構(gòu)建數(shù)據(jù)飛輪,使其獲得媲美人類的運(yùn)動(dòng)能力和語(yǔ)義理解能力,以及如何讓機(jī)器人既能安全可靠,又能靈活適應(yīng)各種環(huán)境,具備通用性和敏捷性來(lái)完成各類實(shí)用任務(wù);采用的是隨計(jì)算能力和數(shù)據(jù)規(guī)模擴(kuò)展的機(jī)器學(xué)習(xí)方法。

    Jiawei Gao(高嘉偉)

    共同一作 Jiawei Gao 目前就讀于 CMU。他曾獲得了清華學(xué)士學(xué)位,曾與 Gao Huang 教授、Jiangmiao Pang 博士、Guanya Shi 教授合作,參與了強(qiáng)化學(xué)習(xí)算法及其在機(jī)器人領(lǐng)域應(yīng)用的相關(guān)項(xiàng)目。

    他一直在思考人類智能的起源,以及如何構(gòu)建能夠像人類一樣學(xué)習(xí)和推理的機(jī)器。為此,他希望致力于研究通用決策算法,使機(jī)器能夠在復(fù)雜的物理世界中進(jìn)行交互、學(xué)習(xí)和適應(yīng)。

    除了研究興趣外,Jiawei Gao 也熱衷于歷史、哲學(xué)和社會(huì)學(xué)。個(gè)人學(xué)習(xí)鋼琴已有十年,是西方古典音樂(lè)的忠實(shí)愛好者,貝多芬和馬勒是我最喜歡的作曲家。同時(shí),他也喜歡旅行和攝影。

    Wenli Xiao

    共同一作 Wenli Xiao 是卡內(nèi)基梅隆大學(xué)機(jī)器人研究所(MSR)的碩士生,由 Guanya Shi 教授和 John Dolan 教授指導(dǎo)。

    他目前在 NVIDIA GEAR 實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生,與 Jim Fan 博士和 Yuke Zhu 教授一起研究人形機(jī)器人基礎(chǔ)模型。

    此前,他在香港中文大學(xué)(深圳)獲得電子信息工程專業(yè)學(xué)士學(xué)位。

    Yuanhang Zhang(張遠(yuǎn)航)

    共同一作 Yuanhang Zhang 目前是 CMU 機(jī)器人研究所(CMU RI)的碩士生,目前在 LeCAR Lab 研究,導(dǎo)師是 Guanya Shi 教授。

    此前,他曾在上海交通大學(xué)獲得了工學(xué)學(xué)士學(xué)位,期間 Hesheng Wang 教授 Danping Zou 教授指導(dǎo)。

    本科期間,他擔(dān)任 SJTU VEX 機(jī)器人俱樂(lè)部的編程組負(fù)責(zé)人,并參與了無(wú)人車(UV)和無(wú)人機(jī)(UAV)相關(guān)的各類競(jìng)賽。

    他的研究興趣包括機(jī)器人學(xué)、機(jī)器學(xué)習(xí)和最優(yōu)控制。目前,他本人的研究方向是人形機(jī)器人和空中操控。

    參考資料:

    • https://x.com/DrJimFan/status/1886824152272920642

    • https://agile.human2humanoid.com/

    本文來(lái)自微信公眾號(hào):新智元(ID:AI_era),原標(biāo)題《英偉達(dá)機(jī)器人跳 APT 舞驚艷全網(wǎng),科比 C 羅完美復(fù)刻!CMU 00 后華人共同一作》

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知