AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

新智元 2024/2/28 16:50:48 責(zé)編：清源

評(píng)論：

【新智元導(dǎo)讀】AI x 機(jī)器人正逐漸走上時(shí)代的風(fēng)口，近日，谷歌 DeepMind 以及英偉達(dá)兩家 AI 大廠都在機(jī)器人領(lǐng)域有所動(dòng)作。

AI x 機(jī)器人必然是今年持續(xù)火爆的一條路線。近日，谷歌 DeepMind 以及英偉達(dá)兩家 AI 大廠透露了自己在機(jī)器人相關(guān)領(lǐng)域的進(jìn)展。

Jim Fan 近日在推上表示正在與自己的老朋友 Yuke Zhu 合作，共同創(chuàng)立一個(gè)名為 GEAR 的新研究小組，來(lái)進(jìn)行「Generalist Embodied Agent Research」：

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

「我們相信，在未來(lái)，每臺(tái)移動(dòng)的機(jī)器都將是自主的，機(jī)器人和模擬代理將像 iPhone 一樣無(wú)處不在。我們正在構(gòu)建一個(gè)具有通用能力的人工智能，可以學(xué)習(xí)在許多虛擬和現(xiàn)實(shí)世界中熟練地行動(dòng)?！?/p>

Jim Fan 將 2024 年稱(chēng)為機(jī)器人年、游戲 AI 年和模擬年。

「我們正在著手執(zhí)行登月任務(wù)，到達(dá)那里將帶來(lái)大量的學(xué)習(xí)和突破?！?/p>

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

面對(duì)英偉達(dá)的「登月」，谷歌 DeepMind 拿出的是一條狗：

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

將人機(jī)交互表述為一個(gè)部分可觀察的馬爾可夫決策過(guò)程（其中人類(lèi)語(yǔ)言輸入是觀察，機(jī)器人代碼輸出是動(dòng)作），那么訓(xùn)練完成先前的交互可以被視為訓(xùn)練 LLM 一個(gè)過(guò)渡動(dòng)力學(xué)模型 —— 它可以與經(jīng)典的機(jī)器人技術(shù)（如模型預(yù)測(cè)控制（MPC））相結(jié)合，以發(fā)現(xiàn)更短的成功路徑。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

研究人員對(duì) Palm 2-S 進(jìn)行了微調(diào)，使機(jī)器人能夠更快地從人類(lèi)互動(dòng)中學(xué)習(xí)，與傳統(tǒng)的 RAG 和 LMPC-Skip 相比，新方法在可教性方面實(shí)現(xiàn)了最大的改進(jìn)。

GEAR

GEAR 的官方頁(yè)面展示了 4 個(gè)有趣的項(xiàng)目：

Eureka

GPT-4 能教機(jī)器人轉(zhuǎn)筆嗎？看看下面的視頻，是不是 6 的飛起？

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

這個(gè)開(kāi)放式 Agent 名為 Eureka，為使機(jī)器人到達(dá)超越人類(lèi)的靈巧性而設(shè)計(jì)獎(jiǎng)勵(lì)機(jī)制。

Eureka 彌合了高級(jí)推理（編碼）和低級(jí)電機(jī)控制之間的差距。它是一種混合梯度架構(gòu)：一個(gè)黑匣子（LLM 推理），指示一個(gè)白盒（可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)）。

外部循環(huán)運(yùn)行 GPT-4 來(lái)優(yōu)化獎(jiǎng)勵(lì)函數(shù)（無(wú)梯度），而內(nèi)部循環(huán)運(yùn)行強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練機(jī)器人控制器（基于梯度）。

這是一款 GPU 加速的物理模擬器，可將現(xiàn)實(shí)速度提高 1000 倍。在 10 個(gè)機(jī)器人的 29 個(gè)任務(wù)的基準(zhǔn)套件中，Eureka 獎(jiǎng)勵(lì)在 83% 的任務(wù)上比專(zhuān)家人工編寫(xiě)的任務(wù)平均提高了 52%。

Eureka 還支持一種新形式的上下文 RLHF，它能夠?qū)⑷祟?lèi)操作員的反饋納入自然語(yǔ)言中，以引導(dǎo)和調(diào)整獎(jiǎng)勵(lì)功能。它可以作為機(jī)器人工程師設(shè)計(jì)復(fù)雜電機(jī)行為的強(qiáng)大助力。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

論文地址：點(diǎn)此直達(dá)

代碼地址：點(diǎn)此直達(dá)

Voyager

下面是訓(xùn)練 Agent 玩游戲，項(xiàng)目名為 Voyager，以 GPT-4 為驅(qū)動(dòng)，是第一個(gè)純粹在上下文中玩 Minecraft 的終身學(xué)習(xí)代理：

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

Voyager 通過(guò)編寫(xiě)，完善，提交和從技能庫(kù)中檢索代碼來(lái)不斷改進(jìn)自己。

這就涉及到由 GPT-4 開(kāi)啟的一種新范式：訓(xùn)練是代碼執(zhí)行而不是梯度下降。

訓(xùn)練模型是 Voyager 迭代編寫(xiě)的技能代碼庫(kù)，而不是浮點(diǎn)數(shù)矩陣。這個(gè)無(wú)梯度架構(gòu)將不斷發(fā)展。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

論文地址：點(diǎn)此直達(dá)

代碼地址：點(diǎn)此直達(dá)

Voyager 有 3 個(gè)關(guān)鍵組件：

首先，Voyager 嘗試使用流行的 Javascript Minecraft API 編寫(xiě)一個(gè)程序來(lái)實(shí)現(xiàn)特定目標(biāo)。該程序在第一次嘗試時(shí)可能不正確。游戲環(huán)境反饋和 javascript 執(zhí)行錯(cuò)誤有助于 GPT-4 完善程序。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

其次，Voyager 通過(guò)將成功的程序存儲(chǔ)在向量數(shù)據(jù)庫(kù)中來(lái)增量構(gòu)建技能庫(kù)。每個(gè)程序都可以通過(guò)嵌入其文檔字符串來(lái)檢索。復(fù)雜的技能是通過(guò)組合更簡(jiǎn)單的技能來(lái)合成的，隨著時(shí)間的推移，增強(qiáng)了 Voyager 的能力。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

第三，自動(dòng)課程會(huì)根據(jù)智能體當(dāng)前的技能水平和世界狀態(tài)提出合適的探索任務(wù)，例如，如果智能體發(fā)現(xiàn)自己處于沙漠中，則先學(xué)習(xí)收獲沙子和仙人掌。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

MineDojo

MineDojo：將 Minecraft 變成 AGI 研究游樂(lè)場(chǎng)的開(kāi)放框架。研究人員收集了 100000 個(gè) YouTube 視頻、Wiki 頁(yè)面和 Reddit 帖子，用于培訓(xùn) Minecraft 代理。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

這項(xiàng)工作也獲得了 NeurIPS 2022 的最佳論文。

Jim Fan 認(rèn)為，通才代理的出現(xiàn)有 3 個(gè)主要成分。首先，一個(gè)開(kāi)放的環(huán)境，允許無(wú)限種任務(wù)和目標(biāo)。地球就是一個(gè)例子，因?yàn)樗銐蜇S富，可以鍛造出一棵不斷擴(kuò)大的生命形式和行為之樹(shù)。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

其次，一個(gè)大規(guī)模的知識(shí)庫(kù)，不僅教人工智能如何做事，還教人工智能做什么。GPT-3 僅從網(wǎng)絡(luò)文本中學(xué)習(xí)，但我們能否為我們的代理提供更豐富的數(shù)據(jù)，例如視頻演練、多媒體教程和自由格式的 wiki?

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

第三，代理架構(gòu)足夠靈活，可以在開(kāi)放式環(huán)境中執(zhí)行任何任務(wù)，并且具有足夠的可擴(kuò)展性，可以將大規(guī)模、多模態(tài)的知識(shí)源轉(zhuǎn)換為可操作的見(jiàn)解。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

Jim Fan 表示，基礎(chǔ)模型的未來(lái)將是積極主動(dòng)采取行動(dòng)、無(wú)休止地探索世界并不斷自我完善的代理。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

論文地址：點(diǎn)此直達(dá)

代碼地址：點(diǎn)此直達(dá)

VIMA

VIMA：第一款帶有機(jī)械臂的多式聯(lián)運(yùn) LLM！引入了用于機(jī)器人學(xué)習(xí)的多模態(tài)提示。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

多模態(tài)提示使用戶的任務(wù)規(guī)范變得更加容易和靈活。通過(guò)單一模型，VIMA 統(tǒng)一了各種任務(wù)，如視覺(jué)目標(biāo)達(dá)到、視頻演示的一次性模仿、新穎的概念學(xué)習(xí)和安全約束滿足。

VIMA 代表 VisuoMotor Attention。它是一個(gè) Transformer，在提示符中對(duì)一系列多模態(tài) token 進(jìn)行編碼，并自回歸地解碼機(jī)械臂控制。

這項(xiàng)工作也在去年的 ICML 上進(jìn)行了海報(bào)展示。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

論文地址：點(diǎn)此直達(dá)

代碼地址：點(diǎn)此直達(dá)

DeepMind 的狗

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

論文地址：點(diǎn)此直達(dá)

如下圖所示，給定一個(gè)用戶用語(yǔ)言教機(jī)器人新任務(wù)的數(shù)據(jù)集（表示為在線上下文學(xué)習(xí)的文本輸入和代碼輸出，圖左），LMPC-Rollouts 經(jīng)過(guò)訓(xùn)練，以預(yù)測(cè)以當(dāng)前聊天記錄為條件的后續(xù)輸入和輸出（圖中間，并使用 MPC 后退水平控制）進(jìn)行推理時(shí)搜索，以返回下一個(gè)最佳操作（成功前的預(yù)期更正最少）。

LMPC-Skip 是一種替代變體，經(jīng)過(guò)訓(xùn)練可直接預(yù)測(cè)最后一個(gè)操作（圖右）。兩種 LMPC 變體都通過(guò)上下文學(xué)習(xí)加速了機(jī)器人的快速適應(yīng)。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

研究人員通過(guò)實(shí)驗(yàn)評(píng)估了各種提出的微調(diào)策略（緩慢適應(yīng)）在多大程度上改善了人類(lèi)的在線情境學(xué)習(xí)（快速適應(yīng)）。

通過(guò)自然語(yǔ)言反饋交互式地教授，對(duì) 78 個(gè)機(jī)器人任務(wù)進(jìn)行評(píng)估，包括 5 個(gè)機(jī)器人仿真案例和 2 個(gè)真實(shí)硬件實(shí)施。并特別探討以下問(wèn)題：

- 微調(diào)在多大程度上提高了可教性，尤其是在測(cè)試任務(wù)上？
- LMPC-Rollouts 和 LMPC-Skip 如何比較？
- 頂級(jí)用戶調(diào)節(jié)有什么好處？
- 微調(diào)是否能夠?qū)崿F(xiàn)交叉實(shí)施例泛化？
- 迭代微調(diào)能否進(jìn)一步提高可教性？

論文中使用 LMPC-Rollouts 和 LMPC-Skip 對(duì) LLM 進(jìn)行了微調(diào)，提高了基礎(chǔ)模型（PaLM 2-S）的可教性，并在所有實(shí)施例中都優(yōu)于 RAG 基線。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

從上圖可以看出，LMPC-Skip 過(guò)度擬合訓(xùn)練任務(wù)（左），而 LMPC-Rollouts 在多輪會(huì)話的測(cè)試任務(wù)（右）上推廣得更好，也就意味著更易于教學(xué)和對(duì)反饋?zhàn)龀龇磻?yīng)。

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

上面的結(jié)果表明，為了在實(shí)踐中最大限度地提高性能，應(yīng)該使用 LMPC-Skip 來(lái)響應(yīng)初始用戶指令，然后使用 LMPC-Rollouts 來(lái)響應(yīng)后續(xù)用戶反饋。

對(duì)于 RAG，雖然該方法在總體成功率方面改進(jìn)了基礎(chǔ)模型，但在測(cè)試任務(wù)上，它實(shí)現(xiàn)的成功任務(wù)率低于基礎(chǔ)模型。雖然 RAG 可能擅長(zhǎng)提高與檢索到的示例類(lèi)似的任務(wù)的成功率，但它很難在新任務(wù)上表現(xiàn)出色。

參考資料：

https://twitter.com/adcock_brett/status/1761814066748670071

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI x 機(jī)器人爆發(fā)年：英偉達(dá) Jim Fan 領(lǐng)銜登月任務(wù)，谷歌 DeepMind 新技術(shù)曝光

GEAR

Eureka

Voyager

MineDojo

VIMA

DeepMind 的狗

相關(guān)文章