見(jiàn)證時(shí)刻！智元發(fā)布首個(gè)通用具身基座模型 —— 智元啟元大模型（GO-1）

2025/3/10 15:49:21 來(lái)源：之家網(wǎng)站作者：- 責(zé)編：-

評(píng)論：

3 月 10 日，智元機(jī)器人正式發(fā)布首個(gè)通用具身基座大模型：智元啟元大模型（Genie Operator-1）。

智元開(kāi)創(chuàng)性地提出了 Vision-Language-Latent-Action (ViLLA) 架構(gòu)，該架構(gòu)由 VLM (多模態(tài)大模型) + MoE (混合專家) 組成。其中 VLM 借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語(yǔ)言理解能力，MoE 中的 Latent Planner (隱式規(guī)劃器) 借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動(dòng)作理解能力，MoE 中的 Action Expert (動(dòng)作專家) 借助百萬(wàn)真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力，三者環(huán)環(huán)相扣，實(shí)現(xiàn)了可以利用人類視頻學(xué)習(xí)，完成小樣本快速泛化，降低了具身智能門檻，并成功部署到智元多款機(jī)器人本體，持續(xù)進(jìn)化，將具身智能推上一個(gè)新臺(tái)階。

GO-1：具身智能的全面創(chuàng)新

GO-1 大模型借助人類和多種機(jī)器人數(shù)據(jù)，讓機(jī)器人獲得了革命性的學(xué)習(xí)能力，可泛化應(yīng)用到各類的環(huán)境和物品中，快速適應(yīng)新任務(wù)、學(xué)習(xí)新技能。同時(shí)，它還支持部署到不同的機(jī)器人本體，高效地完成落地，并在實(shí)際的使用中持續(xù)不斷地快速進(jìn)化。

這一系列的特點(diǎn)可以歸納為 4 個(gè)方面：

●人類視頻學(xué)習(xí)：GO-1 大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí)，增強(qiáng)模型對(duì)人類行為的理解，更好地為人類服務(wù)。

●小樣本快速泛化：GO-1 大模型具有強(qiáng)大的泛化能力，能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù)，降低了具身模型的使用門檻，使得后訓(xùn)練成本非常低。

●一腦多形：GO-1 大模型是通用機(jī)器人策略模型，能夠在不同機(jī)器人形態(tài)之間遷移，快速適配到不同本體，群體升智。

●持續(xù)進(jìn)化：GO-1 大模型搭配智元一整套數(shù)據(jù)回流系統(tǒng)，可以從實(shí)際執(zhí)行遇到的問(wèn)題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí)，越用越聰明。

GO-1：VLA 進(jìn)化到 ViLLA

GO-1 大模型，基于具身領(lǐng)域的數(shù)字金字塔所構(gòu)建，吸納了人類世界多種維度和類型的數(shù)據(jù)，讓機(jī)器人在一開(kāi)始就擁有了通用的場(chǎng)景感知和語(yǔ)言能力，通用的動(dòng)作理解能力，以及精細(xì)的動(dòng)作執(zhí)行力。

圖片1.png

數(shù)字金字塔的底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù)，可以幫助機(jī)器人理解通用知識(shí)和場(chǎng)景。在這之上是大規(guī)模人類操作 / 跨本體視頻，可以幫助機(jī)器人學(xué)習(xí)人類或者其他本體的動(dòng)作操作模式。更上一層則是仿真數(shù)據(jù)，用于增強(qiáng)泛化性，讓機(jī)器人適應(yīng)不同場(chǎng)景、物體等。金字塔的頂層，則是高質(zhì)量的真機(jī)示教數(shù)據(jù)，用于訓(xùn)練精準(zhǔn)動(dòng)作執(zhí)行。

現(xiàn)有的 VLA（Vision-Language-Action）架構(gòu)，未有利用到數(shù)字金字塔中大規(guī)模人類 / 跨本體操作視頻數(shù)據(jù)，缺少了一個(gè)重要的數(shù)據(jù)來(lái)源，導(dǎo)致迭代的成本更高，進(jìn)化的速度更慢。

那么，怎樣的架構(gòu)才能充分利用好這些數(shù)據(jù)？

智元提出了全新的 Vision-Language-Latent-Action (ViLLA) 架構(gòu)。與 VLA 架構(gòu)相比，ViLLA 通過(guò)預(yù)測(cè) Latent Action Tokens（隱式動(dòng)作標(biāo)記），彌合了圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝，能有效利用高質(zhì)量的 AgiBot World 數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù)，增強(qiáng)策略的泛化能力?；谠摷軜?gòu)，智元打造了通用具身基座大模型 ——GO-1。它由 VLM (語(yǔ)言視覺(jué)模型) 和 MoE (專家混合模型) 組成，輸入為多相機(jī)的視覺(jué)信號(hào)、力覺(jué)信號(hào)、語(yǔ)言指令等多模態(tài)信息，直接輸出機(jī)器人的動(dòng)作執(zhí)行序列。

這樣，GO-1 大模型可以幫機(jī)器人完成全面的“基礎(chǔ)教育”和“職業(yè)教育”，機(jī)器人天然能適應(yīng)新的場(chǎng)景，可以輕松面對(duì)多種多樣的環(huán)境和物體，快速學(xué)習(xí)新的操作。

圖片2.png

用戶給出指令告訴機(jī)器人要做的事情，比如“掛衣服”，模型就可以根據(jù)看到的畫面，理解這句話對(duì)應(yīng)的任務(wù)要求。然后模型根據(jù)之前訓(xùn)練時(shí)看過(guò)的掛衣服數(shù)據(jù)，設(shè)想這個(gè)過(guò)程應(yīng)該包括哪些操作步驟，最后執(zhí)行這一連串的步驟，完成整個(gè)任務(wù)的操作。

在更深層的技術(shù)面，因?yàn)?GO-1 大模型在構(gòu)建和訓(xùn)練階段，學(xué)習(xí)了互聯(lián)網(wǎng)的大規(guī)模純文本和圖文數(shù)據(jù)，所以能理解“掛衣服”在此情此景下的含義和要求；學(xué)習(xí)過(guò)人類操作視頻和其他機(jī)器人的各種操作視頻，所以能知道掛衣服這件事通常包括哪些環(huán)節(jié)；學(xué)習(xí)過(guò)仿真的不同衣服、不同衣柜、不同房間，模擬過(guò)掛衣服的操作，所以能理解環(huán)節(jié)中對(duì)應(yīng)的物體和環(huán)境并打通整個(gè)任務(wù)過(guò)程；最后，因?yàn)閷W(xué)習(xí)過(guò)真機(jī)的示教數(shù)據(jù)，所以機(jī)器人能精準(zhǔn)完成整個(gè)任務(wù)的操作。

具體來(lái)說(shuō)，VLM 作為通用具身基座大模型的主干網(wǎng)絡(luò)，繼承開(kāi)源多模態(tài)大模型 InternVL2.5-2B 的權(quán)重，利用互聯(lián)網(wǎng)大規(guī)模純文本和圖文數(shù)據(jù)，讓 GO-1 大模型具備了通用的場(chǎng)景感知和理解能力。

隱動(dòng)作專家模型作為第一個(gè)專家模型，是 GO-1 大模型中隱式的規(guī)劃器，它利用到了大規(guī)模人類操作和跨本體操作視頻，讓模型具備動(dòng)作的理解能力。

GO-1 大模型的最后是作為動(dòng)作預(yù)測(cè)器的動(dòng)作專家模型，它利用高質(zhì)量的仿真數(shù)據(jù)、真機(jī)數(shù)據(jù)，讓模型具備了動(dòng)作的精細(xì)執(zhí)行能力。

智元通用具身基座大模型 GO-1 的推出，標(biāo)志著具身智能向通用化、開(kāi)放化、智能化方向快速邁進(jìn)：

●從單一任務(wù)到多種任務(wù)：機(jī)器人能夠在不同場(chǎng)景中執(zhí)行多種任務(wù)，而不需要針對(duì)每個(gè)新任務(wù)重新訓(xùn)練。

●從封閉環(huán)境到開(kāi)放世界：機(jī)器人不再局限于實(shí)驗(yàn)室，而是可以適應(yīng)多變的真實(shí)世界環(huán)境。

●從預(yù)設(shè)程序到指令泛化：機(jī)器人能夠理解自然語(yǔ)言指令，并根據(jù)語(yǔ)義進(jìn)行組合推理，而不再局限于預(yù)設(shè)程序。

GO-1 大模型將加速具身智能的普及，機(jī)器人將從依賴特定任務(wù)的工具，向著具備通用智能的自主體發(fā)展，在商業(yè)、工業(yè)、家庭等多領(lǐng)域發(fā)揮更大的作用，通向更加通用全能的智能未來(lái)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

見(jiàn)證時(shí)刻！智元發(fā)布首個(gè)通用具身基座模型 —— 智元啟元大模型（GO-1）

相關(guān)文章

見(jiàn)證時(shí)刻！智元發(fā)布首個(gè)通用具身基座模型 —— 智元啟元大模型（GO-1）