首頁 > 智能時代>人工智能

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

量子位 2022/7/19 14:54:25 責編：長河

評論：

咦，怎么好好的藤原千花，突然變成了“高溫紅色版”？

這大紫手，難道是滅霸在世？？

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

如果你以為上面的這些效果只是對物體后期上色了，那還真是被 AI 給騙到了。這些奇怪的顏色，其實是對視頻對象分割的表示。但有一說一，這效果還真是讓人一時間分辨不出。

無論是萌妹子飛舞的發(fā)絲：

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

還是發(fā)生形狀改變的毛巾、物體之間來回遮擋：

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

AI 對目標的分割都稱得上是嚴絲合縫，仿佛是把顏色“焊”了上去。不只是高精度分割目標，這種方法還能處理超過 10000 幀的視頻。而且分割效果始終保持在同一水平，視頻后半段依舊絲滑精細。

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

更意外的是，這種方法對 GPU 要求不高。研究人員表示實驗過程中，該方法消耗的 GPU 內存從來沒超過 1.4GB。要知道，當下基于注意力機制的同類方法，甚至都不能在普通消費級顯卡上處理超過 1 分鐘的視頻。

這就是伊利諾伊大學厄巴納-香檳分校學者最新提出的一種長視頻目標分割方法 XMem。目前已被 ECCV 2022 接收，代碼也已開源。如此絲滑的效果，還在 Reddit 上吸引不少網友圍觀，熱度達到 800+。

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

網友都在打趣說：

為什么要把你的手涂成紫色？
誰知道滅霸是不是有計算機視覺方面的愛好呢？

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

模仿人類記憶法

目前已有的視頻對象分割方法非常多，但是它們要么處理速度比較慢，要么對 GPU 要求高，要么精度不夠高。

而本文提出的方法，可以說是兼顧了以上三方面。不僅能對長視頻快速進行對象分割，畫面幀數(shù)可達到 20FPS，同時在普通 GPU 上就能完成。其特別之處在于，它受人類記憶模式所啟發(fā)。

1968 年，心理學家阿特金森和希夫林提出多重存儲模型（Atkinson-Shiffrin memory model）。該模型認為，人類記憶可以分為 3 種模式：瞬時記憶、短期記憶和長期記憶。

參考如上模式，研究人員將 AI 框架也劃分出 3 種內存方式。分別是：

及時更新的瞬時內存
高分辨率工作內存
密集長期記憶內存。

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

其中，瞬時內存會每幀更新一次，來記錄畫面中的圖像信息。工作內存從瞬時內存中收集畫面信息，更新頻率為每 r 幀一次。當工作內存飽和時，它會被壓縮轉移到長期內存里。

而長期內存也飽和時，會隨著時間推移忘記過時的特征；一般來說這會在處理過數(shù)千幀后才會飽和。這樣一來，GPU 內存也就不會因為時間推移而不足了。

通常，對視頻目標進行分割會給定第一幀的圖像和目標對象掩碼，然后模型會跟蹤相關目標，為后續(xù)幀生成相應的掩碼。具體來看，XMem 處理單幀畫面的過程如下：

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

整個 AI 框架由 3 個端到端卷積網絡組成。

一個查詢編碼器（Query encoder）用來追蹤提取查詢特定圖像特征。
一個解碼器（Decoder）負責獲取內存讀取步驟的輸出，以生成對象掩碼。
一個值編碼器（Value encoder）可以將圖像和目標的掩碼相結合，從而來提取新的內存特征值。

最終值編碼器提取到的特征值會添加到工作內存中。

從實驗結果來看，該方法在短視頻和長視頻上，都實現(xiàn)了 SOTA。

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

在處理長視頻時，隨著幀數(shù)的增加，XMem 的性能也沒有下降。

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

研究團隊

作者之一為華人 Ho Kei (Rex) Cheng。

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

他研究生畢業(yè)于香港科技大學，目前在伊利諾伊大學厄巴納-香檳分校讀博。研究方向為計算機視覺。他先后有多篇論文被 CVPR、NeurIPS、ECCV 等頂會接收。

另一位作者是 Alexander G. Schwing。

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

他現(xiàn)在是伊利諾伊大學厄巴納-香檳分校的助理教授，博士畢業(yè)于蘇黎世聯(lián)邦理工學院。研究方向為機器學習和計算機視覺。

論文地址：

https://arxiv.org/abs/2207.07115

GitHub：

https://github.com/hkchengrex/XMem

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：計算機視覺，代碼

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022

模仿人類記憶法

研究團隊

相關文章

給 1 萬幀視頻做目標分割，顯存占用還不到 1.4GB，代碼已開源 | ECCV 2022