港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

量子位 2024/5/27 15:46:53 責(zé)編：清源

評(píng)論：

當(dāng)前，多模態(tài)大模型 （MLLM）在多項(xiàng)視覺任務(wù)上展現(xiàn)出了強(qiáng)大的認(rèn)知理解能力。然而大部分多模態(tài)大模型局限于單向的圖像理解，難以將理解的內(nèi)容映射回圖像上。

比如，模型能輕易說出圖中有哪些物體，但無法將物體在圖中準(zhǔn)確標(biāo)識(shí)出來。

定位能力的缺失直接限制了多模態(tài)大模型在圖像編輯，自動(dòng)駕駛，機(jī)器人控制等下游領(lǐng)域的應(yīng)用。

針對(duì)這一問題，港大和字節(jié)跳動(dòng)商業(yè)化團(tuán)隊(duì)的研究人員提出了一種新范式 Groma——

通過區(qū)域性圖像編碼來提升多模態(tài)大模型的感知定位能力。

在融入定位后，Groma 可以將文本內(nèi)容和圖像區(qū)域直接關(guān)聯(lián)起來，從而顯著提升對(duì)話的交互性和指向性。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

核心思路

如何賦予多模態(tài)大模型定位物體的能力，乃至于將文字內(nèi)容和圖像區(qū)域關(guān)聯(lián)起來，做到“言之有物”，是當(dāng)前一大研究熱點(diǎn)。

常見的做法是微調(diào)大語(yǔ)言模型使其直接輸出物體坐標(biāo)。然而這種方法卻有著諸多限制：

1、在文本上預(yù)訓(xùn)練的大語(yǔ)言模型本身不具備空間理解能力，僅依靠少量數(shù)據(jù)微調(diào)很難精準(zhǔn)定位物體。

2、定位任務(wù)對(duì)輸入圖像的分辨率有較高要求，但提高分辨率會(huì)顯著增加多模態(tài)大模型的計(jì)算量。

3、大語(yǔ)言模型的輸出形式不適合處理精細(xì)的定位任務(wù)，比如分割。

基于這些考慮，Groma 提出將定位轉(zhuǎn)移到多模態(tài)大模型的 vision tokenizer 中，由 vision tokenizer 發(fā)現(xiàn)并定位潛在的物體，再交給大語(yǔ)言模型識(shí)別。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

同時(shí)，這樣的設(shè)計(jì)也充分利用了 vision tokenizer 本身的空間理解能力，而無需外接專家模型（比如 SAM）來輔助定位，從而避免了外接模型的冗余。

具體而言，Groma 在全局圖像編碼的基礎(chǔ)上，引入了區(qū)域編碼來實(shí)現(xiàn)定位功能 —— 如下圖所示，Groma 先利用 Region Proposer 定位潛在的物體，再通過 Region Encoder 將定位到的區(qū)域逐一編碼成 region token。

而大語(yǔ)言模型則可以根據(jù) region token 的語(yǔ)意判斷其對(duì)應(yīng)的區(qū)域，并通過在輸出中插入 region token 來達(dá)成類似超鏈接的效果，實(shí)現(xiàn) visually grounded conversation。

同樣地，用戶指定的區(qū)域也可以通過 Region Encoder 編碼成相應(yīng)的 region token，并插入到用戶指令中，從而讓多模態(tài)模型能關(guān)注到指定的區(qū)域并產(chǎn)生指向性的回答。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

為了提升定位的魯棒性和準(zhǔn)確性，Groma 采用了超過 8M 的數(shù)據(jù)（包括 SA1B）來預(yù)訓(xùn)練 Region Proposer。因此其產(chǎn)生的 proposal 不僅包括常見的物體，也涵蓋了物體的組成部分以及更廣闊的背景等要素。

此外，得益于分離式的設(shè)計(jì)，Groma 可以采用高分辨率特征圖用于 Region Proposer / Encoder 的輸入，并采用低分辨率的特征圖用于大模型輸入，從而在降低計(jì)算量的同時(shí)又不損失定位性能。

實(shí)驗(yàn)結(jié)果

Groma 在傳統(tǒng)的 Grounding Benchmarks 上表現(xiàn)出了超越 MiniGPT-v2 和 Qwen-VL 的性能。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

同時(shí)，Groma 在多模態(tài)大模型通用的 VQA Benchmark (LLaVA-COCO) 驗(yàn)證了其對(duì)話和推理能力。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

在可視化的對(duì)比中，Groma 也表現(xiàn)出了更高的 recall 和更少的幻覺。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

此外，Groma 還支持融合對(duì)話能力和定位能力的 referential dialogue 以及 grounded chat。

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

得益于大語(yǔ)言模型強(qiáng)大的認(rèn)知推理能力，多模態(tài)大模型在視覺理解任務(wù)上表現(xiàn)突出。

然而一些傳統(tǒng)的視覺任務(wù)，如檢測(cè)分割、深度估計(jì)等，更多依賴視覺感知能力，這恰恰是大語(yǔ)言模型所缺乏的。

Groma 在這個(gè)問題上提供了一種新的解決思路，即把感知和認(rèn)知解耦開來，由 vision tokenizer 負(fù)責(zé)感知，大語(yǔ)言模型負(fù)責(zé)認(rèn)知。

這種先感知后認(rèn)知的形式除了更符合人類的視覺過程，也避免了重新訓(xùn)練大語(yǔ)言模型的計(jì)算開銷。

5 月 15 日，字節(jié)跳動(dòng)剛剛公布了自研的豆包大模型，提供多模態(tài)能力，下游支持豆包 App、扣子、即夢(mèng)等 50 + 業(yè)務(wù)，并通過火山引擎開放給企業(yè)客戶，助力企業(yè)提升效率、加速智能化創(chuàng)新。目前，豆包 App 已成為中國(guó)市場(chǎng)用戶量最大的 AIGC 應(yīng)用。字節(jié)跳動(dòng)正持續(xù)加大對(duì)頂尖人才和前沿技術(shù)的投入力度，參與行業(yè)頂尖的技術(shù)挑戰(zhàn)和攻堅(jiān)。

項(xiàng)目網(wǎng)站：

https://groma-mllm.github.io

論文鏈接：

https://arxiv.org/abs/2404.13013

開源代碼：

https://github.com/FoundationVision/Groma

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：允中

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

核心思路

實(shí)驗(yàn)結(jié)果

相關(guān)文章

港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體