首頁 > 軟件之家>軟件快報

這個深度學(xué)習(xí)庫能執(zhí)行 10 多種圖像文本任務(wù)，有 20 多個數(shù)據(jù)集，還統(tǒng)一接口｜已開源

量子位 2022/10/1 16:34:31 責(zé)編：子非

評論：

支持 10 余種圖像文本任務(wù)，囊括 20 多種數(shù)據(jù)集，還提供 SOTA 模型性能和可復(fù)現(xiàn)預(yù)訓(xùn)練及微調(diào)實驗配置。

沒錯，這是一個視覺語言深度學(xué)習(xí)框架就可以擁有的。

這個庫的廬山真面目是：Salesforce 亞洲研究院推出的 LAVIS。

這個深度學(xué)習(xí)庫能執(zhí)行 10 多種圖像文本任務(wù)，有 20 多個數(shù)據(jù)集，還統(tǒng)一接口｜已開源

并且，它還統(tǒng)一了接口，降低開發(fā)成本和入門門檻。

最重要的是：已開源！

LAVIS 全?位?持視覺語?任務(wù)、數(shù)據(jù)集、模型。

如果還不能看不出它的優(yōu)勢，那話不多說，直接看 LAVIS 與現(xiàn)有多模態(tài)庫的對比圖。

這個深度學(xué)習(xí)庫能執(zhí)行 10 多種圖像文本任務(wù)，有 20 多個數(shù)據(jù)集，還統(tǒng)一接口｜已開源

相較之下，現(xiàn)存的視覺語?框架只?持較少?部分任務(wù)和數(shù)據(jù)集，遜色了不少。

除此之外，LAVIS 還附帶了豐富的開源資源和?具，就比如說它提供了一個圖形化的工具，可以可視化數(shù)據(jù)集的樣本，以便于能更好的預(yù)覽、理解數(shù)據(jù)。

并且隨著 LAVIS 一起開源的還有 GUI demo，它的功能就有這么多。（看圖）

這個深度學(xué)習(xí)庫能執(zhí)行 10 多種圖像文本任務(wù)，有 20 多個數(shù)據(jù)集，還統(tǒng)一接口｜已開源

具體 LAVIS 有何過人之處？一起來看看吧～

?站式視覺語?框架

LAVIS 概括下來，可以用三個數(shù)字來表示：四、十、二十。

先來說說四，它表示 LAVIS 支持四種領(lǐng)先的基礎(chǔ)視覺語?模型架構(gòu)，包括 ALBEF、BLIP、CLIP 和 ALPRO。

其中 ALBEF 和 CLIP 主要支持圖像文本任務(wù)，ALPRO ?持視頻?本任務(wù)，BLIP 對這兩項任務(wù)都能夠提供?持。

也正是有了這些視覺語言模型做基礎(chǔ)，LAVIS 才能夠運行這十余種視覺語言任務(wù)。

具體來講，它可以進行圖?描述?成、圖像?本檢索、視頻?本檢索、圖像問答、視頻問答、多模態(tài)分類、多模態(tài)圖像、視頻對話、視覺語?推理、多模態(tài)預(yù)訓(xùn)練等實?任務(wù)。

除此之外，LAVIS 還具備多模態(tài)特征提取等功能。

講完模型架構(gòu)和任務(wù)，就還差數(shù)據(jù)集了，不過這就不必?fù)?dān)心，因為 LAVIS 能夠支持二十多種數(shù)據(jù)集。

想實現(xiàn)各項任務(wù)都能夠找到合適的數(shù)據(jù)集進行訓(xùn)練。

這個深度學(xué)習(xí)庫能執(zhí)行 10 多種圖像文本任務(wù)，有 20 多個數(shù)據(jù)集，還統(tǒng)一接口｜已開源

不過，這些都還只是 LAVIS 的開碟小菜，它還“憋了個大招”：

統(tǒng)一接口。

這對初學(xué)者和跨領(lǐng)域研究者來說是相當(dāng)友好了，許多深度學(xué)習(xí)庫的模型、數(shù)據(jù)集一集任務(wù)評估接口都不一致，這就導(dǎo)致學(xué)習(xí)成本大大提高。

而統(tǒng)一接口之后，就會極?簡化模型訓(xùn)練評測，并且能夠最?化重復(fù)開發(fā)成本。

話說回來，這里的統(tǒng)一接口具體方便了什么呢？

主要分為兩部分。

第一部分是用于加載數(shù)據(jù)集和模型的統(tǒng)一接口，模型及其相關(guān)的預(yù)處理器也可以通過一個統(tǒng)一的接口來加載，從而便于對自定義數(shù)據(jù)進行分析和推斷。

第二部分是實現(xiàn)多模態(tài)特征提取的統(tǒng)一接口，這些特性對于端到端微調(diào)的離線應(yīng)用程序尤其有用。通過更改名稱和模式，用戶可以選擇使用不同的模型架構(gòu)和預(yù)先訓(xùn)練的權(quán)重。

這樣一來，?戶便可以利? LAVIS 提供的 load_model (), load_dataset () ，?鍵加載所需模型和數(shù)據(jù)集。

比如說，加載 COCO captioning 數(shù)據(jù)集，只需要輸入 load_dataset（“coco_caption”）；加載 BLIP captioning 模型只需要輸入 model=load_model（name=“blip_caption”）。

此外，LAVIS 還能實現(xiàn)數(shù)據(jù)到訓(xùn)練?定制化，給予開發(fā)者充分空間研究新模型、新多模態(tài)能?、新引?場景。

不過，實現(xiàn) LAVIS 這樣一站式的視覺語言框架，是怎樣做到的呢？

模塊化的結(jié)構(gòu)

其實從 LAVIS 的構(gòu)造就能夠看出，LAVIS 深度學(xué)習(xí)庫的整個構(gòu)造很簡潔，用三個字就可以概括：模塊化。

在整個庫中，將關(guān)鍵組件模塊化后再進行組織。

這樣一來，就可以對單個組件的現(xiàn)成訪問、快速開發(fā)以及新組件或外部組件的輕松集成，還能夠模型推斷，例如多模態(tài)特征提取。

具體是怎樣的？可以一起看看。

LAVIS 共分為六個關(guān)鍵模塊（詳見下圖）。

其中比較核心的就是 runners 模塊，它負(fù)責(zé)管理整個訓(xùn)練的評估的過程，RunnerBase 和 RunnerIters 也各司其職，一個負(fù)責(zé)基于 epoch 的訓(xùn)練，一個負(fù)責(zé)基于迭代的訓(xùn)練。

tasks 模塊會對每個任務(wù)執(zhí)行具體的訓(xùn)練和評估邏輯，以適應(yīng)特定的任務(wù)。

datasets 顧名思義就是負(fù)責(zé)創(chuàng)建數(shù)據(jù)集。

在 models 模塊中，它保存了其支持的四個模型以及共享模型層的定義。

processors 模塊用來處理多模態(tài)輸入的預(yù)處理，處理器將輸入的圖像、視頻和文本轉(zhuǎn)換為模型可以使用的形式。

common 則是 LAVIS 提供的工具包和一些應(yīng)用程序。

這個深度學(xué)習(xí)庫能執(zhí)行 10 多種圖像文本任務(wù)，有 20 多個數(shù)據(jù)集，還統(tǒng)一接口｜已開源

這些模塊之間相互依賴，由此便形成了一個簡單而統(tǒng)一的庫，進而可以更方便地訓(xùn)練和評估模型；訪問所支持的模型和數(shù)據(jù)集以及擴展新模型、任務(wù)和數(shù)據(jù)集。

目前，開發(fā)人員表示將持續(xù)更新維護 LAVIS，在未來它將會支持更多更強大的視覺語言預(yù)訓(xùn)練模型，和更多的視覺語言任務(wù)，比如文本圖像生成。

聽完是不是心癢癢了？

下方就有開源鏈接以及詳細(xì)文檔，感興趣的朋友可以試試～

Github：https://github.com/salesforce/LAVIS

技術(shù)報告：https://arxiv.org/ abs / 2209.09019

?持?檔：https://opensource.salesforce.com/ LAVIS//latest/ index.html

官?博客：https://blog.salesforceairesearch.com/ lavis-language-vision-library/

— 完 —

本文來自微信公眾號：量子位（ID：QbitAI），作者：Pine

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

這個深度學(xué)習(xí)庫能執(zhí)行 10 多種圖像文本任務(wù)，有 20 多個數(shù)據(jù)集，還統(tǒng)一接口｜已開源

?站式視覺語?框架

模塊化的結(jié)構(gòu)

相關(guān)文章

這個深度學(xué)習(xí)庫能執(zhí)行 10 多種圖像文本任務(wù)，有 20 多個數(shù)據(jù)集，還統(tǒng)一接口｜已開源