IT之家 1 月 10 日消息,銀河通用昨日(1 月 9 日)宣布,聯(lián)合北京智源人工智能研究院(BAAI)及北京大學(xué)和香港大學(xué)研究人員,發(fā)布首個(gè)全面泛化的端到端具身抓取基礎(chǔ)大模型 GraspVLA。
IT之家注:“具身智能”是指將人工智能融入機(jī)器人等物理實(shí)體,賦予它們感知、學(xué)習(xí)和與環(huán)境動(dòng)態(tài)交互的能力。
據(jù)介紹,GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達(dá)到了有史以來(lái)最大的數(shù)據(jù)體量 —— 十億幀「視覺(jué)-語(yǔ)言-動(dòng)作」對(duì),掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型。
預(yù)訓(xùn)練后,模型可直接 Sim2Real(IT之家注:從模擬到現(xiàn)實(shí))在未見(jiàn)過(guò)的、千變?nèi)f化的真實(shí)場(chǎng)景和物體上零樣本測(cè)試,官方宣稱(chēng)滿(mǎn)足大多數(shù)產(chǎn)品的需求;而針對(duì)特別需求,后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場(chǎng)景,維持高泛化性的同時(shí)形成符合產(chǎn)品需求的專(zhuān)業(yè)技能。
官方公布了 VLA 達(dá)到基礎(chǔ)模型需滿(mǎn)足的七大泛化“金標(biāo)準(zhǔn)”:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動(dòng)作策略泛化、動(dòng)態(tài)干擾泛化、物體類(lèi)別泛化。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。