IT之家 3 月 5 日消息,全球機(jī)器人領(lǐng)域頂會(huì) ICRA 2025(IEEE 機(jī)器人與自動(dòng)化國(guó)際會(huì)議)日前公布了論文錄用結(jié)果,地瓜機(jī)器人主導(dǎo)研發(fā)的 DOSOD 開放詞匯目標(biāo)檢測(cè)算法與 MODEST 單目透明物體抓取算法成功入選。
作為機(jī)器人執(zhí)行各項(xiàng)任務(wù)中繞不開的操作對(duì)象,水杯、試管、窗戶等透明物體在人類生活中無處不在。然而,透明物體復(fù)雜的折射和反射特性給機(jī)器人感知造成了很大困難。在大多數(shù) RGB 圖像中的透明物體往往缺乏清晰的紋理,而容易與背景混為一體。此外,商用深度相機(jī)也難以準(zhǔn)確捕捉這些物體的深度信息,導(dǎo)致深度圖缺失或噪聲過多,從而限制了機(jī)器人在多個(gè)領(lǐng)域的廣泛應(yīng)用。
為了解決透明物體的抓取問題,地瓜機(jī)器人聯(lián)合中科院自動(dòng)化所(簡(jiǎn)稱:CASIA)多模態(tài)人工智能系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室,推出了針對(duì)透明物體的單目深度估計(jì)和語義分割的多任務(wù)框架(簡(jiǎn)稱:MODEST)。該框架借助創(chuàng)新性的語義和幾何融合模塊,結(jié)合獨(dú)特的特征迭代更新策略,提升了深度估計(jì)和語義分割的效果,尤其在抓取成功率和系統(tǒng)泛化性方面取得了突破性進(jìn)展。
MODEST 算法框架作為通用抓取模型的前置模塊,即插即用,且無需依賴額外傳感器,僅靠單張 RGB 圖像,便可實(shí)現(xiàn)透明物體的抓取,效果上甚至要優(yōu)于其它雙目和多視圖的方法,可以應(yīng)用于智能工廠、實(shí)驗(yàn)室自動(dòng)化、智慧家居等場(chǎng)景,降低設(shè)備成本并提升機(jī)器人對(duì)透明物體的操作能力。
MODEST 主要聚焦于透明物體的深度估計(jì),通過設(shè)計(jì)的語義和幾何結(jié)合的多任務(wù)框架,獲取物體準(zhǔn)確的深度信息,之后結(jié)合基于點(diǎn)云的抓取網(wǎng)絡(luò)實(shí)現(xiàn)透明物體的抓取。相當(dāng)于在通用抓取網(wǎng)絡(luò)前面增加一個(gè)針對(duì)透明物體的增強(qiáng)模塊。
MODEST 模型的整體架構(gòu)如圖所示,輸入為單目 RGB 圖像,輸出為透明物體的分割結(jié)果和場(chǎng)景深度預(yù)測(cè)。網(wǎng)絡(luò)主要由編碼、重組、語義幾何融合和迭代解碼四個(gè)模塊組成。輸入圖像首先經(jīng)過基于 ViT 的編碼模塊進(jìn)行處理,隨后重組為對(duì)應(yīng)分割和深度兩個(gè)分支的多尺度特征。在融合模塊中對(duì)兩組特征進(jìn)行混合和增強(qiáng),最后通過多次迭代逐步更新特征,并獲得最終預(yù)測(cè)結(jié)果。
地瓜機(jī)器人將算法遷移到真實(shí)機(jī)器人平臺(tái),開展了透明物體抓取實(shí)驗(yàn)。平臺(tái)主要由 UR 機(jī)械臂和深度相機(jī)構(gòu)成,在借助 MODEST 方法進(jìn)行透明物體精確感知的基礎(chǔ)之上,采用 GraspNet 進(jìn)行抓取位姿的生成。在多個(gè)透明物體上的實(shí)驗(yàn)結(jié)果表明,MODEST 方法在真實(shí)平臺(tái)上具有良好的魯棒性和泛化性(IT之家注:魯棒性是指系統(tǒng)在面對(duì)內(nèi)部結(jié)構(gòu)或外部環(huán)境變化時(shí),仍能保持其功能穩(wěn)定運(yùn)行的能力)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。