設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

年輕人的第一個(gè)多模態(tài)大模型:1080Ti 輕松運(yùn)行,已開(kāi)源在線可玩

量子位 2024/1/27 18:39:06 責(zé)編:清源

一款名為 Vary-toy 的“年輕人的第一個(gè)多模態(tài)大模型”來(lái)了!模型大小不到 2B,消費(fèi)級(jí)顯卡可訓(xùn)練,GTX1080ti、8G 的老顯卡輕松運(yùn)行。

想將一份文檔圖片轉(zhuǎn)換成 Markdown 格式?以往需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟。

現(xiàn)在只需一句話命令:

無(wú)論中英文,圖片中的大段文字都能分分鐘提取出來(lái):

對(duì)一張圖做對(duì)象檢測(cè),還是能給出具體坐標(biāo)的那種:

這項(xiàng)研究由來(lái)自曠視、國(guó)科大、華中大的研究人員共同提出。

據(jù)介紹,Vary-toy 雖小,但卻幾乎涵蓋了目前 LVLM(大型視覺(jué)語(yǔ)言模型)主流研究中的所有能力:文檔 OCR 識(shí)別(Document OCR)、視覺(jué)定位(Visual Grounding)、圖像描述(Image Caption)、視覺(jué)問(wèn)答(VQA)。

現(xiàn)在,Vary-toy 代碼和模型均已開(kāi)源,并有在線 demo 可試玩。

網(wǎng)友一邊表示感興趣,一邊關(guān)注點(diǎn)在于舊?GTX1080,心情 belike:

“縮小版”Vary

其實(shí),早在去年 12 月 Vary 團(tuán)隊(duì)就發(fā)布了 Vary 的首項(xiàng)研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人員指出 CLIP 視覺(jué)詞表在密集感知能力上的不足,并用一種簡(jiǎn)單有效的擴(kuò)充詞表方案給出了一種全新的 OCR 范式。

Vary 發(fā)布后得到廣泛關(guān)注,目前 Github1.2k+ star,但也有不少人因?yàn)橘Y源受限運(yùn)行不了。

考慮到目前開(kāi)源得很好且性能出色的“小”VLM 比較少,于是該團(tuán)隊(duì)又新發(fā)布了號(hào)稱(chēng)是“年輕人的第一個(gè)多模大模型”的 Vary-toy。

與 Vary 相比,Vary-toy 除了小之外,也訓(xùn)練了更強(qiáng)的視覺(jué)詞表,新的詞表不再將模型局限于文檔級(jí) OCR,而是給出了一個(gè)更加通用和全面的視覺(jué)詞表,其不僅能做文檔級(jí) OCR,還能做通用視覺(jué)目標(biāo)檢測(cè)。

那這究竟是如何做到的?Vary-toy 的模型結(jié)構(gòu)和訓(xùn)練流程如下圖所示,總的來(lái)說(shuō),訓(xùn)練共分兩個(gè)階段。

首先在第一階段,使用 Vary-tiny + 結(jié)構(gòu),預(yù)訓(xùn)練出一個(gè)相比原版 Vary 更好的視覺(jué)詞表,新的視覺(jué)詞表解決了原 Vary 只用它做文檔級(jí) OCR 的網(wǎng)絡(luò)容量浪費(fèi)問(wèn)題、以及沒(méi)有充分利用到 SAM 預(yù)訓(xùn)練優(yōu)勢(shì)的問(wèn)題。

然后在第二階段中,將第一階段中訓(xùn)好的視覺(jué)詞表 merge 到最終結(jié)構(gòu)進(jìn)行 multi-task training / SFT。

眾所周知,一個(gè)好的數(shù)據(jù)配比對(duì)于產(chǎn)生一個(gè)能力全面的 VLM 是至關(guān)重要的。

因此在預(yù)訓(xùn)練階段,Vary-toy 使用了 5 種任務(wù)類(lèi)型的數(shù)據(jù)構(gòu)建對(duì)話,數(shù)據(jù)配比和示例 prompt 如下圖所示:

而在 SFT 階段,只使用了 LLaVA-80K 數(shù)據(jù)。更多的技術(shù)細(xì)節(jié),可以查看 Vary-toy 的技術(shù)報(bào)告。

實(shí)驗(yàn)測(cè)試結(jié)果

Vary-toy 在 DocVQA、ChartQA、RefCOCO、MMVet 四個(gè)基準(zhǔn)測(cè)試的得分如下:

Vary-toy 在 DocVQA 上可以達(dá)到 65.6% 的 ANLS,在 ChartQA 上達(dá)到 59.1% 的準(zhǔn)確率,RefCOCO88.1% 的準(zhǔn)確率:

MMVet 上可以達(dá)到 29% 準(zhǔn)確率,無(wú)論是從基準(zhǔn)測(cè)試評(píng)分上還是可視化效果上,不到 2B 的 Vary-toy 甚至能和一些流行的 7B 模型的性能一較高下。

項(xiàng)目鏈接:

  • [1]https://arxiv.org/abs/2401.12503

  • [3]https://varytoy.github.io/

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:關(guān)注前沿科技

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,大模型,多模態(tài)

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知