<li id="2htjg"><tfoot id="2htjg"></tfoot></li>

<rp id="2htjg"><th id="2htjg"></th></rp>

首頁(yè)

最會(huì)買(mǎi)

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶(hù)端
要知App
軟媒魔方

首頁(yè) > 智能時(shí)代>人工智能

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

2025/1/10 14:54:18 來(lái)源：IT之家作者：沛霖（實(shí)習(xí)） 責(zé)編：沛霖

評(píng)論：

IT之家 1 月 10 日消息，銀河通用昨日（1 月 9 日）宣布，聯(lián)合北京智源人工智能研究院（BAAI）及北京大學(xué)和香港大學(xué)研究人員，發(fā)布首個(gè)全面泛化的端到端具身抓取基礎(chǔ)大模型 GraspVLA。

IT之家注：“具身智能”是指將人工智能融入機(jī)器人等物理實(shí)體，賦予它們感知、學(xué)習(xí)和與環(huán)境動(dòng)態(tài)交互的能力。

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

據(jù)介紹，GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù)，訓(xùn)練數(shù)據(jù)達(dá)到了有史以來(lái)最大的數(shù)據(jù)體量 —— 十億幀「視覺(jué)-語(yǔ)言-動(dòng)作」對(duì)，掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型。

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

預(yù)訓(xùn)練后，模型可直接 Sim2Real（IT之家注：從模擬到現(xiàn)實(shí)）在未見(jiàn)過(guò)的、千變?nèi)f化的真實(shí)場(chǎng)景和物體上零樣本測(cè)試，官方宣稱(chēng)滿(mǎn)足大多數(shù)產(chǎn)品的需求；而針對(duì)特別需求，后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場(chǎng)景，維持高泛化性的同時(shí)形成符合產(chǎn)品需求的專(zhuān)業(yè)技能。

官方公布了 VLA 達(dá)到基礎(chǔ)模型需滿(mǎn)足的七大泛化“金標(biāo)準(zhǔn)”：光照泛化、背景泛化、平面位置泛化、空間高度泛化、動(dòng)作策略泛化、動(dòng)態(tài)干擾泛化、物體類(lèi)別泛化。

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

▲ 光照泛化，二倍速播放

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

▲ 背景泛化，三倍速播放

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

▲ 平面位置泛化，二倍速播放

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

▲ 空間高度泛化，二倍速播放

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

▲ 動(dòng)作策略泛化，三倍速播放

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

▲ 動(dòng)態(tài)干擾泛化，二倍速播放

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺(jué)-語(yǔ)言-動(dòng)作”對(duì)

▲ 物體類(lèi)別泛化，三倍速播放

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：銀河通用，具身智能

軟媒旗下網(wǎng)站： IT之家最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機(jī)APP應(yīng)用魔方最會(huì)買(mǎi) 要知

<rt id="7adqs"></rt>

<td id="7adqs"><form id="7adqs"></form></td>