設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

見(jiàn)證時(shí)刻!智元發(fā)布首個(gè)通用具身基座模型 —— 智元啟元大模型(GO-1)

2025/3/10 15:49:21 來(lái)源:之家網(wǎng)站 作者:- 責(zé)編:-

3 月 10 日,智元機(jī)器人正式發(fā)布首個(gè)通用具身基座大模型:智元啟元大模型(Genie Operator-1)。

智元開(kāi)創(chuàng)性地提出了 Vision-Language-Latent-Action (ViLLA) 架構(gòu),該架構(gòu)由 VLM (多模態(tài)大模型) + MoE (混合專家) 組成。其中 VLM 借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語(yǔ)言理解能力,MoE 中的 Latent Planner (隱式規(guī)劃器) 借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動(dòng)作理解能力,MoE 中的 Action Expert (動(dòng)作專家) 借助百萬(wàn)真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力,三者環(huán)環(huán)相扣,實(shí)現(xiàn)了可以利用人類視頻學(xué)習(xí),完成小樣本快速泛化,降低了具身智能門檻,并成功部署到智元多款機(jī)器人本體,持續(xù)進(jìn)化,將具身智能推上一個(gè)新臺(tái)階。

GO-1:具身智能的全面創(chuàng)新

GO-1 大模型借助人類和多種機(jī)器人數(shù)據(jù),讓機(jī)器人獲得了革命性的學(xué)習(xí)能力,可泛化應(yīng)用到各類的環(huán)境和物品中,快速適應(yīng)新任務(wù)、學(xué)習(xí)新技能。同時(shí),它還支持部署到不同的機(jī)器人本體,高效地完成落地,并在實(shí)際的使用中持續(xù)不斷地快速進(jìn)化。

這一系列的特點(diǎn)可以歸納為 4 個(gè)方面:

●人類視頻學(xué)習(xí):GO-1 大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對(duì)人類行為的理解,更好地為人類服務(wù)。

小樣本快速泛化:GO-1 大模型具有強(qiáng)大的泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù),降低了具身模型的使用門檻,使得后訓(xùn)練成本非常低。

一腦多形:GO-1 大模型是通用機(jī)器人策略模型,能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體,群體升智。

持續(xù)進(jìn)化:GO-1 大模型搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實(shí)際執(zhí)行遇到的問(wèn)題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí),越用越聰明。

GO-1:VLA 進(jìn)化到 ViLLA

GO-1 大模型,基于具身領(lǐng)域的數(shù)字金字塔所構(gòu)建,吸納了人類世界多種維度和類型的數(shù)據(jù),讓機(jī)器人在一開(kāi)始就擁有了通用的場(chǎng)景感知和語(yǔ)言能力,通用的動(dòng)作理解能力,以及精細(xì)的動(dòng)作執(zhí)行力。

圖片1.png

數(shù)字金字塔的底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),可以幫助機(jī)器人理解通用知識(shí)和場(chǎng)景。在這之上是大規(guī)模人類操作 / 跨本體視頻,可以幫助機(jī)器人學(xué)習(xí)人類或者其他本體的動(dòng)作操作模式。更上一層則是仿真數(shù)據(jù),用于增強(qiáng)泛化性,讓機(jī)器人適應(yīng)不同場(chǎng)景、物體等。金字塔的頂層,則是高質(zhì)量的真機(jī)示教數(shù)據(jù),用于訓(xùn)練精準(zhǔn)動(dòng)作執(zhí)行。

現(xiàn)有的 VLA(Vision-Language-Action)架構(gòu),未有利用到數(shù)字金字塔中大規(guī)模人類 / 跨本體操作視頻數(shù)據(jù),缺少了一個(gè)重要的數(shù)據(jù)來(lái)源,導(dǎo)致迭代的成本更高,進(jìn)化的速度更慢。

那么,怎樣的架構(gòu)才能充分利用好這些數(shù)據(jù)?

智元提出了全新的 Vision-Language-Latent-Action (ViLLA) 架構(gòu)。與 VLA 架構(gòu)相比,ViLLA 通過(guò)預(yù)測(cè) Latent Action Tokens(隱式動(dòng)作標(biāo)記),彌合了圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝,能有效利用高質(zhì)量的 AgiBot World 數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù),增強(qiáng)策略的泛化能力?;谠摷軜?gòu),智元打造了通用具身基座大模型 ——GO-1。它由 VLM (語(yǔ)言視覺(jué)模型) 和 MoE (專家混合模型) 組成,輸入為多相機(jī)的視覺(jué)信號(hào)、力覺(jué)信號(hào)、語(yǔ)言指令等多模態(tài)信息,直接輸出機(jī)器人的動(dòng)作執(zhí)行序列。

這樣,GO-1 大模型可以幫機(jī)器人完成全面的“基礎(chǔ)教育”和“職業(yè)教育”,機(jī)器人天然能適應(yīng)新的場(chǎng)景,可以輕松面對(duì)多種多樣的環(huán)境和物體,快速學(xué)習(xí)新的操作。

圖片2.png

用戶給出指令告訴機(jī)器人要做的事情,比如“掛衣服”,模型就可以根據(jù)看到的畫面,理解這句話對(duì)應(yīng)的任務(wù)要求。然后模型根據(jù)之前訓(xùn)練時(shí)看過(guò)的掛衣服數(shù)據(jù),設(shè)想這個(gè)過(guò)程應(yīng)該包括哪些操作步驟,最后執(zhí)行這一連串的步驟,完成整個(gè)任務(wù)的操作。

在更深層的技術(shù)面,因?yàn)?GO-1 大模型在構(gòu)建和訓(xùn)練階段,學(xué)習(xí)了互聯(lián)網(wǎng)的大規(guī)模純文本和圖文數(shù)據(jù),所以能理解“掛衣服”在此情此景下的含義和要求;學(xué)習(xí)過(guò)人類操作視頻和其他機(jī)器人的各種操作視頻,所以能知道掛衣服這件事通常包括哪些環(huán)節(jié);學(xué)習(xí)過(guò)仿真的不同衣服、不同衣柜、不同房間,模擬過(guò)掛衣服的操作,所以能理解環(huán)節(jié)中對(duì)應(yīng)的物體和環(huán)境并打通整個(gè)任務(wù)過(guò)程;最后,因?yàn)閷W(xué)習(xí)過(guò)真機(jī)的示教數(shù)據(jù),所以機(jī)器人能精準(zhǔn)完成整個(gè)任務(wù)的操作。

具體來(lái)說(shuō),VLM 作為通用具身基座大模型的主干網(wǎng)絡(luò),繼承開(kāi)源多模態(tài)大模型 InternVL2.5-2B 的權(quán)重,利用互聯(lián)網(wǎng)大規(guī)模純文本和圖文數(shù)據(jù),讓 GO-1 大模型具備了通用的場(chǎng)景感知和理解能力。

隱動(dòng)作專家模型作為第一個(gè)專家模型,是 GO-1 大模型中隱式的規(guī)劃器,它利用到了大規(guī)模人類操作和跨本體操作視頻,讓模型具備動(dòng)作的理解能力。

GO-1 大模型的最后是作為動(dòng)作預(yù)測(cè)器的動(dòng)作專家模型,它利用高質(zhì)量的仿真數(shù)據(jù)、真機(jī)數(shù)據(jù),讓模型具備了動(dòng)作的精細(xì)執(zhí)行能力。

智元通用具身基座大模型 GO-1 的推出,標(biāo)志著具身智能向通用化、開(kāi)放化、智能化方向快速邁進(jìn):

從單一任務(wù)到多種任務(wù):機(jī)器人能夠在不同場(chǎng)景中執(zhí)行多種任務(wù),而不需要針對(duì)每個(gè)新任務(wù)重新訓(xùn)練。

從封閉環(huán)境到開(kāi)放世界:機(jī)器人不再局限于實(shí)驗(yàn)室,而是可以適應(yīng)多變的真實(shí)世界環(huán)境。

從預(yù)設(shè)程序到指令泛化:機(jī)器人能夠理解自然語(yǔ)言指令,并根據(jù)語(yǔ)義進(jìn)行組合推理,而不再局限于預(yù)設(shè)程序。

GO-1 大模型將加速具身智能的普及,機(jī)器人將從依賴特定任務(wù)的工具,向著具備通用智能的自主體發(fā)展,在商業(yè)、工業(yè)、家庭等多領(lǐng)域發(fā)揮更大的作用,通向更加通用全能的智能未來(lái)。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知