【新智元導(dǎo)讀】AI x 機(jī)器人正逐漸走上時(shí)代的風(fēng)口,近日,谷歌 DeepMind 以及英偉達(dá)兩家 AI 大廠都在機(jī)器人領(lǐng)域有所動(dòng)作。
AI x 機(jī)器人必然是今年持續(xù)火爆的一條路線。近日,谷歌 DeepMind 以及英偉達(dá)兩家 AI 大廠透露了自己在機(jī)器人相關(guān)領(lǐng)域的進(jìn)展。
Jim Fan 近日在推上表示正在與自己的老朋友 Yuke Zhu 合作,共同創(chuàng)立一個(gè)名為 GEAR 的新研究小組,來(lái)進(jìn)行「Generalist Embodied Agent Research」:
「我們相信,在未來(lái),每臺(tái)移動(dòng)的機(jī)器都將是自主的,機(jī)器人和模擬代理將像 iPhone 一樣無(wú)處不在。我們正在構(gòu)建一個(gè)具有通用能力的人工智能,可以學(xué)習(xí)在許多虛擬和現(xiàn)實(shí)世界中熟練地行動(dòng)?!?/p>
Jim Fan 將 2024 年稱(chēng)為機(jī)器人年、游戲 AI 年和模擬年。
「我們正在著手執(zhí)行登月任務(wù),到達(dá)那里將帶來(lái)大量的學(xué)習(xí)和突破?!?/p>
面對(duì)英偉達(dá)的「登月」,谷歌 DeepMind 拿出的是一條狗:
將人機(jī)交互表述為一個(gè)部分可觀察的馬爾可夫決策過(guò)程(其中人類(lèi)語(yǔ)言輸入是觀察,機(jī)器人代碼輸出是動(dòng)作),那么訓(xùn)練完成先前的交互可以被視為訓(xùn)練 LLM 一個(gè)過(guò)渡動(dòng)力學(xué)模型 —— 它可以與經(jīng)典的機(jī)器人技術(shù)(如模型預(yù)測(cè)控制(MPC))相結(jié)合,以發(fā)現(xiàn)更短的成功路徑。
研究人員對(duì) Palm 2-S 進(jìn)行了微調(diào),使機(jī)器人能夠更快地從人類(lèi)互動(dòng)中學(xué)習(xí),與傳統(tǒng)的 RAG 和 LMPC-Skip 相比,新方法在可教性方面實(shí)現(xiàn)了最大的改進(jìn)。
GEAR
GEAR 的官方頁(yè)面展示了 4 個(gè)有趣的項(xiàng)目:
Eureka
GPT-4 能教機(jī)器人轉(zhuǎn)筆嗎?看看下面的視頻,是不是 6 的飛起?
這個(gè)開(kāi)放式 Agent 名為 Eureka,為使機(jī)器人到達(dá)超越人類(lèi)的靈巧性而設(shè)計(jì)獎(jiǎng)勵(lì)機(jī)制。
Eureka 彌合了高級(jí)推理(編碼)和低級(jí)電機(jī)控制之間的差距。它是一種混合梯度架構(gòu):一個(gè)黑匣子(LLM 推理),指示一個(gè)白盒(可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò))。
外部循環(huán)運(yùn)行 GPT-4 來(lái)優(yōu)化獎(jiǎng)勵(lì)函數(shù)(無(wú)梯度),而內(nèi)部循環(huán)運(yùn)行強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練機(jī)器人控制器(基于梯度)。
這是一款 GPU 加速的物理模擬器,可將現(xiàn)實(shí)速度提高 1000 倍。在 10 個(gè)機(jī)器人的 29 個(gè)任務(wù)的基準(zhǔn)套件中,Eureka 獎(jiǎng)勵(lì)在 83% 的任務(wù)上比專(zhuān)家人工編寫(xiě)的任務(wù)平均提高了 52%。
Eureka 還支持一種新形式的上下文 RLHF,它能夠?qū)⑷祟?lèi)操作員的反饋納入自然語(yǔ)言中,以引導(dǎo)和調(diào)整獎(jiǎng)勵(lì)功能。它可以作為機(jī)器人工程師設(shè)計(jì)復(fù)雜電機(jī)行為的強(qiáng)大助力。
論文地址:點(diǎn)此直達(dá)
代碼地址:點(diǎn)此直達(dá)
Voyager
下面是訓(xùn)練 Agent 玩游戲,項(xiàng)目名為 Voyager,以 GPT-4 為驅(qū)動(dòng),是第一個(gè)純粹在上下文中玩 Minecraft 的終身學(xué)習(xí)代理:
Voyager 通過(guò)編寫(xiě),完善,提交和從技能庫(kù)中檢索代碼來(lái)不斷改進(jìn)自己。
這就涉及到由 GPT-4 開(kāi)啟的一種新范式:訓(xùn)練是代碼執(zhí)行而不是梯度下降。
訓(xùn)練模型是 Voyager 迭代編寫(xiě)的技能代碼庫(kù),而不是浮點(diǎn)數(shù)矩陣。這個(gè)無(wú)梯度架構(gòu)將不斷發(fā)展。
論文地址:點(diǎn)此直達(dá)
代碼地址:點(diǎn)此直達(dá)
Voyager 有 3 個(gè)關(guān)鍵組件:
首先,Voyager 嘗試使用流行的 Javascript Minecraft API 編寫(xiě)一個(gè)程序來(lái)實(shí)現(xiàn)特定目標(biāo)。該程序在第一次嘗試時(shí)可能不正確。游戲環(huán)境反饋和 javascript 執(zhí)行錯(cuò)誤有助于 GPT-4 完善程序。
其次,Voyager 通過(guò)將成功的程序存儲(chǔ)在向量數(shù)據(jù)庫(kù)中來(lái)增量構(gòu)建技能庫(kù)。每個(gè)程序都可以通過(guò)嵌入其文檔字符串來(lái)檢索。復(fù)雜的技能是通過(guò)組合更簡(jiǎn)單的技能來(lái)合成的,隨著時(shí)間的推移,增強(qiáng)了 Voyager 的能力。
第三,自動(dòng)課程會(huì)根據(jù)智能體當(dāng)前的技能水平和世界狀態(tài)提出合適的探索任務(wù),例如,如果智能體發(fā)現(xiàn)自己處于沙漠中,則先學(xué)習(xí)收獲沙子和仙人掌。
MineDojo
MineDojo:將 Minecraft 變成 AGI 研究游樂(lè)場(chǎng)的開(kāi)放框架。研究人員收集了 100000 個(gè) YouTube 視頻、Wiki 頁(yè)面和 Reddit 帖子,用于培訓(xùn) Minecraft 代理。
這項(xiàng)工作也獲得了 NeurIPS 2022 的最佳論文。
Jim Fan 認(rèn)為,通才代理的出現(xiàn)有 3 個(gè)主要成分。首先,一個(gè)開(kāi)放的環(huán)境,允許無(wú)限種任務(wù)和目標(biāo)。地球就是一個(gè)例子,因?yàn)樗銐蜇S富,可以鍛造出一棵不斷擴(kuò)大的生命形式和行為之樹(shù)。
其次,一個(gè)大規(guī)模的知識(shí)庫(kù),不僅教人工智能如何做事,還教人工智能做什么。GPT-3 僅從網(wǎng)絡(luò)文本中學(xué)習(xí),但我們能否為我們的代理提供更豐富的數(shù)據(jù),例如視頻演練、多媒體教程和自由格式的 wiki?
第三,代理架構(gòu)足夠靈活,可以在開(kāi)放式環(huán)境中執(zhí)行任何任務(wù),并且具有足夠的可擴(kuò)展性,可以將大規(guī)模、多模態(tài)的知識(shí)源轉(zhuǎn)換為可操作的見(jiàn)解。
Jim Fan 表示,基礎(chǔ)模型的未來(lái)將是積極主動(dòng)采取行動(dòng)、無(wú)休止地探索世界并不斷自我完善的代理。
論文地址:點(diǎn)此直達(dá)
代碼地址:點(diǎn)此直達(dá)
VIMA
VIMA:第一款帶有機(jī)械臂的多式聯(lián)運(yùn) LLM!引入了用于機(jī)器人學(xué)習(xí)的多模態(tài)提示。
多模態(tài)提示使用戶的任務(wù)規(guī)范變得更加容易和靈活。通過(guò)單一模型,VIMA 統(tǒng)一了各種任務(wù),如視覺(jué)目標(biāo)達(dá)到、視頻演示的一次性模仿、新穎的概念學(xué)習(xí)和安全約束滿足。
VIMA 代表 VisuoMotor Attention。它是一個(gè) Transformer,在提示符中對(duì)一系列多模態(tài) token 進(jìn)行編碼,并自回歸地解碼機(jī)械臂控制。
這項(xiàng)工作也在去年的 ICML 上進(jìn)行了海報(bào)展示。
論文地址:點(diǎn)此直達(dá)
代碼地址:點(diǎn)此直達(dá)
DeepMind 的狗
論文地址:點(diǎn)此直達(dá)
如下圖所示,給定一個(gè)用戶用語(yǔ)言教機(jī)器人新任務(wù)的數(shù)據(jù)集(表示為在線上下文學(xué)習(xí)的文本輸入和代碼輸出,圖左),LMPC-Rollouts 經(jīng)過(guò)訓(xùn)練,以預(yù)測(cè)以當(dāng)前聊天記錄為條件的后續(xù)輸入和輸出(圖中間,并使用 MPC 后退水平控制)進(jìn)行推理時(shí)搜索,以返回下一個(gè)最佳操作(成功前的預(yù)期更正最少)。
LMPC-Skip 是一種替代變體,經(jīng)過(guò)訓(xùn)練可直接預(yù)測(cè)最后一個(gè)操作(圖右)。兩種 LMPC 變體都通過(guò)上下文學(xué)習(xí)加速了機(jī)器人的快速適應(yīng)。
研究人員通過(guò)實(shí)驗(yàn)評(píng)估了各種提出的微調(diào)策略(緩慢適應(yīng))在多大程度上改善了人類(lèi)的在線情境學(xué)習(xí)(快速適應(yīng))。
通過(guò)自然語(yǔ)言反饋交互式地教授,對(duì) 78 個(gè)機(jī)器人任務(wù)進(jìn)行評(píng)估,包括 5 個(gè)機(jī)器人仿真案例和 2 個(gè)真實(shí)硬件實(shí)施。并特別探討以下問(wèn)題:
- 微調(diào)在多大程度上提高了可教性,尤其是在測(cè)試任務(wù)上?
- LMPC-Rollouts 和 LMPC-Skip 如何比較?
- 頂級(jí)用戶調(diào)節(jié)有什么好處?
- 微調(diào)是否能夠?qū)崿F(xiàn)交叉實(shí)施例泛化?
- 迭代微調(diào)能否進(jìn)一步提高可教性?
論文中使用 LMPC-Rollouts 和 LMPC-Skip 對(duì) LLM 進(jìn)行了微調(diào),提高了基礎(chǔ)模型(PaLM 2-S)的可教性,并在所有實(shí)施例中都優(yōu)于 RAG 基線。
從上圖可以看出,LMPC-Skip 過(guò)度擬合訓(xùn)練任務(wù)(左),而 LMPC-Rollouts 在多輪會(huì)話的測(cè)試任務(wù)(右)上推廣得更好,也就意味著更易于教學(xué)和對(duì)反饋?zhàn)龀龇磻?yīng)。
上面的結(jié)果表明,為了在實(shí)踐中最大限度地提高性能,應(yīng)該使用 LMPC-Skip 來(lái)響應(yīng)初始用戶指令,然后使用 LMPC-Rollouts 來(lái)響應(yīng)后續(xù)用戶反饋。
對(duì)于 RAG,雖然該方法在總體成功率方面改進(jìn)了基礎(chǔ)模型,但在測(cè)試任務(wù)上,它實(shí)現(xiàn)的成功任務(wù)率低于基礎(chǔ)模型。雖然 RAG 可能擅長(zhǎng)提高與檢索到的示例類(lèi)似的任務(wù)的成功率,但它很難在新任務(wù)上表現(xiàn)出色。
參考資料:
https://twitter.com/adcock_brett/status/1761814066748670071
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。