銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA,預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

2025/1/10 14:54:18 來(lái)源:IT之家 作者:沛霖(實(shí)習(xí)) 責(zé)編:沛霖

IT之家 1 月 10 日消息,銀河通用昨日(1 月 9 日)宣布,聯(lián)合北京智源人工智能研究院(BAAI)及北京大學(xué)和香港大學(xué)研究人員,發(fā)布首個(gè)全面泛化的端到端具身抓取基礎(chǔ)大模型 GraspVLA。

IT之家注:“具身智能”是指將人工智能融入機(jī)器人等物理實(shí)體,賦予它們感知、學(xué)習(xí)和與環(huán)境動(dòng)態(tài)交互的能力。

據(jù)介紹,GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達(dá)到了有史以來(lái)最大的數(shù)據(jù)體量 —— 十億幀「視覺(jué)-語(yǔ)言-動(dòng)作」對(duì),掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型。

預(yù)訓(xùn)練后,模型可直接 Sim2Real(IT之家注:從模擬到現(xiàn)實(shí))在未見(jiàn)過(guò)的、千變?nèi)f化的真實(shí)場(chǎng)景和物體上零樣本測(cè)試,官方宣稱(chēng)滿(mǎn)足大多數(shù)產(chǎn)品的需求;而針對(duì)特別需求,后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場(chǎng)景,維持高泛化性的同時(shí)形成符合產(chǎn)品需求的專(zhuān)業(yè)技能。

官方公布了 VLA 達(dá)到基礎(chǔ)模型需滿(mǎn)足的七大泛化“金標(biāo)準(zhǔn)”:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動(dòng)作策略泛化、動(dòng)態(tài)干擾泛化、物體類(lèi)別泛化。

▲ 光照泛化,二倍速播放

▲ 背景泛化,三倍速播放

▲ 平面位置泛化,二倍速播放

▲ 空間高度泛化,二倍速播放

▲ 動(dòng)作策略泛化,三倍速播放

▲ 動(dòng)態(tài)干擾泛化,二倍速播放 

▲ 物體類(lèi)別泛化,三倍速播放

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:銀河通用,具身智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知