首頁 > 智能時代>人工智能

Meta AI 推出“雜食者”模型，搞定圖像、視頻和 3D 三大分類任務

量子位 2022/1/24 15:50:04 責編：沐泉

評論：

1 月 24 日消息，最近，Meta AI 推出了這樣一個“雜食者”（Omnivore）模型，可以對不同視覺模態(tài)的數(shù)據(jù)進行分類，包括圖像、視頻和 3D 數(shù)據(jù)。

比如面對最左邊的圖像，它可以從深度圖、單視覺 3D 圖和視頻數(shù)據(jù)集中搜集出與之最匹配的結果。

各種物品素材

這在之前，都要分用不同的模型來實現(xiàn)；現(xiàn)在一個模型就搞定了。

而且 Omnivore 易于訓練，使用現(xiàn)成的標準數(shù)據(jù)集，就能讓其性能達到與對應單模型相當甚至更高的水平。

實驗結果顯示，Omnivore 在圖像分類數(shù)據(jù)集 ImageNet 上能達到 86.0% 的精度，在用于動作識別的 Kinetics 數(shù)據(jù)集上能達 84.1%，在用于單視圖 3D 場景分類的 SUN RGB-D 也獲得了 67.1%。

另外，Omnivore 在實現(xiàn)一切跨模態(tài)識別時，都無需訪問模態(tài)之間的對應關系。

不同視覺模態(tài)都能通吃的“雜食者”

Omnivore 基于 Transformer 體系結構，具備該架構特有的靈活性，并針對不同模態(tài)的分類任務進行聯(lián)合訓練。

模型架構如下：

狗、自行車、家具三種模型

Omnivore 會將輸入的圖像、視頻和單視圖 3D 圖像轉換為 embedding，并饋送到 Transformer 中。

雖然它可以使用任何 vision transformer 架構來處理 patch embedding，但鑒于 Swin transformer 在圖像和視頻任務上的強大性能，這里就使用該架構作為基礎模型。

具體來說，Omnivore 將圖像轉為 patch，視頻轉為時空 tube（spatio-temporal tube），單視圖 3D 圖像轉為 RGB patch 和深度 patch。

然后使用線性層將 patches 映射到到 embedding 中。其中對 RGB patch 使用同一線性層，對深度 patch 使用單獨的。

總的來說，就是通過 embedding 將所有視覺模式轉換為通用格式，然后使用一系列時空注意力（attention）操作來構建不同視覺模式的統(tǒng)一表示。

研究人員在 ImageNet-1K 數(shù)據(jù)集、Kinetics-400 數(shù)據(jù)集和 SUN RGB-D 數(shù)據(jù)集上聯(lián)合訓練出各種 Omnivore 模型。

這種方法類似于多任務學習和跨模態(tài)對齊，但有 2 點重要區(qū)別：

1、不假設輸入觀測值對齊（即不假設圖像、視頻和 3D 數(shù)據(jù)之間的對應關系）；

2、也不假設這些數(shù)據(jù)集共享相同的標簽空間（label space）。

性能超 SOTA

實驗方面，首先將 Omnivore 與各視覺模態(tài)對應的特定模型（下表中指 Specific）進行比較。

一共有三種不同的模型尺寸：T、S 和 B。

預訓練模型在七個下游任務上都進行了微調。

圖像特定模型在 IN1K 上預訓練。視頻特定模型和單視圖 3D 特定模型均使用預訓練圖像特定模型的 inflation 進行初始化，并分別在 K400 和 SUN RGB-D 上進行微調。

結果發(fā)現(xiàn)，Omnivore 在幾乎所有的下游任務上的性能都相當于或優(yōu)于各特定模型。

其中尺寸最大的 Swin-B 實現(xiàn)了全部任務上的 SOTA。

Meta AI 推出“雜食者”模型，搞定圖像、視頻和 3D 三大分類任務

將 Omnivore 與具有相同模型架構和參數(shù)數(shù)量的特定模型比較也是相同的結果。

Meta AI 推出“雜食者”模型，搞定圖像、視頻和 3D 三大分類任務

其中 Omnivore 在 IN1K、K400 和 SUN 數(shù)據(jù)集上從頭開始聯(lián)合訓練，而特定模態(tài)的模型針對每個數(shù)據(jù)集專門訓練：

ImageSwin 模型從零開始訓練，VideoSwin 和 DepthSwin 模型則從 ImageSwin 模型上進行微調。

接下來將 Omnivore 與圖像、視頻和 3D 數(shù)據(jù)分類任務上的 SOTA 模型進行比較。

結果仍然不錯，Omnivore 在所有預訓練任務中都表現(xiàn)出了優(yōu)于 SOTA 模型的性能（下圖從上至下分別為圖像、視頻和 3D 數(shù)據(jù)）。

性能表格

此外，在 ImageNet-1K 數(shù)據(jù)集上檢索給定 RGB 圖像的深度圖也發(fā)現(xiàn)，盡管 Omnivore 沒有接受過關于 1K 深度圖的訓練，但它也能夠給出語義相似的正確答案。

多種物品識別后，漏斗、儲水罐、雷達天線、螳螂

最后，作者表示，盡管這個“雜食者”比傳統(tǒng)的特定模式模型有了很多進步，但它有一些局限性。

比如目前它僅適用于單視圖 3D 圖像，不適用于其他 3D 表示，如體素圖（voxels）、點云圖等。

論文地址：點擊打開

代碼已開源：點擊打開

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：AI，人工智能，模型

Meta AI 推出“雜食者”模型，搞定圖像、視頻和 3D 三大分類任務

不同視覺模態(tài)都能通吃的“雜食者”

性能超 SOTA

相關文章

Meta AI 推出“雜食者”模型，搞定圖像、視頻和 3D 三大分類任務