首頁(yè) > 智能時(shí)代>人工智能

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

量子位 2021/8/30 14:59:04 責(zé)編：問(wèn)舟

評(píng)論：

（原標(biāo)題：完美摳圖王冰冰！字節(jié)實(shí)習(xí)生開(kāi)發(fā)的 AI，實(shí)現(xiàn) 4K60 幀視頻實(shí)時(shí)摳圖，連頭發(fā)絲都根根分明）

看這一頭蓬松的秀發(fā)，加上帥氣的動(dòng)作，你以為是在綠幕前拍大片？

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

No、No、No

這其實(shí)是 AI 拿來(lái)視頻實(shí)時(shí)摳圖后的效果。

沒(méi)想到吧，實(shí)時(shí)視頻摳圖，現(xiàn)在能精細(xì)到每一根發(fā)絲。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

換到 alpha 通道再看一眼，不用多說(shuō)，德芙打錢吧（手動(dòng)狗頭）。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

這就是來(lái)自字節(jié)跳動(dòng)實(shí)習(xí)生小哥的最新研究：實(shí)時(shí)高分辨率視頻摳圖大法。

無(wú)需任何輔助輸入，把視頻丟給這個(gè)名為 RVM 的 AI，它分分鐘就能幫你把人像高精度摳出，將背景替換成可以任意二次加工的綠幕。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

不信有這么絲滑？我們用線上 Demo 親自嘗試了一波。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

相比之下，現(xiàn)在在線會(huì)議軟件里的摳圖，一旦頭發(fā)遮住臉，人就會(huì)消失……

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

頭發(fā)絲更是明顯糊了。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

難怪看得網(wǎng)友直言：

不敢想象你們把這只 AI 塞進(jìn)手機(jī)里的樣子。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

目前，這篇論文已經(jīng)入選 WACV 2022。

你也可以上手一試目前，RVM 已經(jīng)在 GitHub 上開(kāi)源，并給出了兩種試玩途徑：

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

于是我們也趕緊上手試了試。

先來(lái)看看效果：

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

首先來(lái)點(diǎn)難度低的。對(duì)于這種人物在畫面中基本不移動(dòng)的情況，RVM 可以說(shuō)是表現(xiàn)的非常好，和人工摳圖幾乎無(wú)差別。

現(xiàn)在，王冰冰進(jìn)入動(dòng)森都毫不違和了。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

于是開(kāi)腦洞，也變得簡(jiǎn)單了許多……

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

咳咳，言歸正傳。人物動(dòng)作幅度加大會(huì)怎樣呢？

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

對(duì)于多人舞蹈視頻而言，RVM 的表現(xiàn)也很 nice。即便動(dòng)來(lái)動(dòng)去、頭發(fā)亂甩，也沒(méi)有影響它的摳圖效果。只有在人物出現(xiàn)遮擋的情況下，才會(huì)出現(xiàn)瑕疵。對(duì)比前輩方法 MODNet，確實(shí)有不小的進(jìn)步。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

不過(guò)我們也發(fā)現(xiàn)，如果視頻的背景較暗，就會(huì)影響 RVM 的發(fā)揮。

比如在這種背景光線昏暗的情況下，摳圖的效果就非常不盡人意了。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

可以看到，博主老哥的頭發(fā)完全糊了。

而且身體的邊界線也不夠清晰。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

所以，如果你想自己拍視頻試玩，就一定要選擇光線充足的場(chǎng)景。

利用時(shí)間信息

那么這樣的“魔法”，具體又是如何實(shí)現(xiàn)的？

照例，我們先來(lái)扒一扒論文~

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

實(shí)際上，有關(guān)視頻摳圖的算法如今已不鮮見(jiàn)，其中大多數(shù)采用的是將視頻中的每一幀作為獨(dú)立圖像來(lái)實(shí)現(xiàn)摳圖的方法。

不同與此，在這篇論文中，研究人員構(gòu)建了一個(gè)循環(huán)架構(gòu)，利用上了視頻的時(shí)間信息，在時(shí)間一致性和摳圖質(zhì)量上取得了明顯改進(jìn)。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

從上圖中可以看出，RVM 的網(wǎng)絡(luò)架構(gòu)包括 3 個(gè)部分：

特征提取編碼器，用來(lái)提取單幀特征；

循環(huán)解碼器，用于匯總時(shí)間信息；

深度引導(dǎo)濾波（DGF）模塊，用于高分辨率上采樣。

其中，循環(huán)機(jī)制的引入使得 AI 能夠在連續(xù)的視頻流中自我學(xué)習(xí)，從而了解到哪些信息需要保留，哪些信息可以遺忘掉。

具體而言，循環(huán)解碼器采用了多尺度 ConvGRU 來(lái)聚合時(shí)間信息。其定義如下：

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

在這個(gè)編碼器-解碼器網(wǎng)絡(luò)中，AI 會(huì)完成對(duì)高分辨率視頻的下采樣，然后再使用 DGF 對(duì)結(jié)果進(jìn)行上采樣。

除此之外，研究人員還提出了一種新的訓(xùn)練策略：同時(shí)使用摳圖和語(yǔ)義分割目標(biāo)數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò)。

這樣做到好處在于：

首先，人像摳圖與人像分割任務(wù)密切相關(guān)，AI 必須學(xué)會(huì)從語(yǔ)義上理解場(chǎng)景，才能在定位人物主體方面具備魯棒性。

其次，現(xiàn)有的大部分摳圖數(shù)據(jù)集只提供真實(shí)的 alpha 通道和前景信息，所以必須對(duì)背景圖像進(jìn)行合成。但前景和背景的光照往往不同，這就影響了合成的效果。語(yǔ)義分割數(shù)據(jù)集的引入可以有效防止過(guò)擬合。

最后，語(yǔ)義分割數(shù)據(jù)集擁有更為豐富的訓(xùn)練數(shù)據(jù)。

經(jīng)過(guò)這一番調(diào)教之后，RVM 和前輩們比起來(lái)，有怎樣的改進(jìn)？

從效果對(duì)比中就可以明顯感受到了：

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

另外，與 MODNet 相比，RVM 更輕更快。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

從下面這張表格中可以看出，在 1080p 視頻上 RVM 的處理速度是最快的，在 512×288 上比 BGMv2 略慢，在 4K 視頻上則比帶 FGF 的 MODNet 慢一點(diǎn)。研究人員分析，這是因?yàn)?RVM 除了 alpha 通道外還預(yù)判了前景。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

更直觀的數(shù)據(jù)是，在英偉達(dá) GTX 1080Ti 上，RVM 能以 76FPS 的速度處理 4K 視頻，以 104FPS 的速度處理 HD 視頻。

一作字節(jié)跳動(dòng)實(shí)習(xí)生

這篇論文是一作林山川在字節(jié)跳動(dòng)實(shí)習(xí)期間完成的。他本科、碩士均畢業(yè)于華盛頓大學(xué)，曾先后在 Adobe、Facebook 等大廠實(shí)習(xí)。2021 年 3 月-6 月，林山川在字節(jié)跳動(dòng)實(shí)習(xí)。8 月剛剛?cè)肼毼④洝?/p>

事實(shí)上，林山川此前就曾憑借 AI 摳圖大法拿下 CVPR 2021 最佳學(xué)生論文榮譽(yù)獎(jiǎng)。

他以一作身份發(fā)表論文《Real-Time High-Resolution Background Matting》，提出了 Background Matting V2 方法。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

這一方法能夠以 30FPS 的速度處理 4K 視頻，以 60FPS 的速度處理 HD 視頻。

值得一提的是，Background Matting 這一系列方法不止一次中了 CVPR。此前，第一代 Background Matting 就被 CVPR 2020 收錄。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

兩次論文的通訊作者都是華盛頓大學(xué)副教授 Ira Kemelmacher-Shlizerman，她的研究方向?yàn)橛?jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形、AR/VR 等。

實(shí)習(xí)生大佬開(kāi)發(fā)出 AI 摳圖：4K 60 幀視頻毫無(wú)壓力，支持網(wǎng)頁(yè)體驗(yàn)

此外，本次論文的二作為 Linjie Yang，他是字節(jié)跳動(dòng)的研究科學(xué)家。本科畢業(yè)于清華大學(xué)，在香港中文大學(xué)獲得博士學(xué)位。

對(duì)了，除了能在 Colab 上試用之外，你也可以在網(wǎng)頁(yè)版上實(shí)時(shí)感受一下這只 AI 的效果，地址拿好：

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub 地址：

https://github.com/PeterL1n/RobustVideoMatting

論文地址：

https://arxiv.org/abs/2108.11515

參考鏈接：

https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮