首頁 > 智能時代>人工智能

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

量子位 2024/1/27 18:39:06 責(zé)編：清源

評論：

一款名為 Vary-toy 的“年輕人的第一個多模態(tài)大模型”來了！模型大小不到 2B，消費(fèi)級顯卡可訓(xùn)練，GTX1080ti、8G 的老顯卡輕松運(yùn)行。

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式？以往需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟。

現(xiàn)在只需一句話命令：

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

無論中英文，圖片中的大段文字都能分分鐘提取出來：

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

對一張圖做對象檢測，還是能給出具體坐標(biāo)的那種：

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

這項(xiàng)研究由來自曠視、國科大、華中大的研究人員共同提出。

據(jù)介紹，Vary-toy 雖小，但卻幾乎涵蓋了目前 LVLM（大型視覺語言模型）主流研究中的所有能力：文檔 OCR 識別（Document OCR）、視覺定位（Visual Grounding）、圖像描述（Image Caption）、視覺問答（VQA）。

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

現(xiàn)在，Vary-toy 代碼和模型均已開源，并有在線 demo 可試玩。

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

網(wǎng)友一邊表示感興趣，一邊關(guān)注點(diǎn)在于舊?GTX1080，心情 belike：

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

“縮小版”Vary

其實(shí)，早在去年 12 月 Vary 團(tuán)隊就發(fā)布了 Vary 的首項(xiàng)研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人員指出 CLIP 視覺詞表在密集感知能力上的不足，并用一種簡單有效的擴(kuò)充詞表方案給出了一種全新的 OCR 范式。

Vary 發(fā)布后得到廣泛關(guān)注，目前 Github1.2k+ star，但也有不少人因?yàn)橘Y源受限運(yùn)行不了。

考慮到目前開源得很好且性能出色的“小”VLM 比較少，于是該團(tuán)隊又新發(fā)布了號稱是“年輕人的第一個多模大模型”的 Vary-toy。

與 Vary 相比，Vary-toy 除了小之外，也訓(xùn)練了更強(qiáng)的視覺詞表，新的詞表不再將模型局限于文檔級 OCR，而是給出了一個更加通用和全面的視覺詞表，其不僅能做文檔級 OCR，還能做通用視覺目標(biāo)檢測。

那這究竟是如何做到的？Vary-toy 的模型結(jié)構(gòu)和訓(xùn)練流程如下圖所示，總的來說，訓(xùn)練共分兩個階段。

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

首先在第一階段，使用 Vary-tiny + 結(jié)構(gòu)，預(yù)訓(xùn)練出一個相比原版 Vary 更好的視覺詞表，新的視覺詞表解決了原 Vary 只用它做文檔級 OCR 的網(wǎng)絡(luò)容量浪費(fèi)問題、以及沒有充分利用到 SAM 預(yù)訓(xùn)練優(yōu)勢的問題。

然后在第二階段中，將第一階段中訓(xùn)好的視覺詞表 merge 到最終結(jié)構(gòu)進(jìn)行 multi-task training / SFT。

眾所周知，一個好的數(shù)據(jù)配比對于產(chǎn)生一個能力全面的 VLM 是至關(guān)重要的。

因此在預(yù)訓(xùn)練階段，Vary-toy 使用了 5 種任務(wù)類型的數(shù)據(jù)構(gòu)建對話，數(shù)據(jù)配比和示例 prompt 如下圖所示：

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

而在 SFT 階段，只使用了 LLaVA-80K 數(shù)據(jù)。更多的技術(shù)細(xì)節(jié)，可以查看 Vary-toy 的技術(shù)報告。

實(shí)驗(yàn)測試結(jié)果

Vary-toy 在 DocVQA、ChartQA、RefCOCO、MMVet 四個基準(zhǔn)測試的得分如下：

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

Vary-toy 在 DocVQA 上可以達(dá)到 65.6% 的 ANLS，在 ChartQA 上達(dá)到 59.1% 的準(zhǔn)確率，RefCOCO88.1% 的準(zhǔn)確率：

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

MMVet 上可以達(dá)到 29% 準(zhǔn)確率，無論是從基準(zhǔn)測試評分上還是可視化效果上，不到 2B 的 Vary-toy 甚至能和一些流行的 7B 模型的性能一較高下。

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

項(xiàng)目鏈接：

[1]https://arxiv.org/abs/2401.12503
[3]https://varytoy.github.io/

本文來自微信公眾號：量子位（ID：QbitAI），作者：關(guān)注前沿科技

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩

“縮小版”Vary

實(shí)驗(yàn)測試結(jié)果

相關(guān)文章

年輕人的第一個多模態(tài)大模型：1080Ti 輕松運(yùn)行，已開源在線可玩