在視頻擴(kuò)散生成領(lǐng)域,如何精準(zhǔn)操控視頻中的運(yùn)動(dòng)細(xì)節(jié)而又不犧牲畫面質(zhì)量,一直是研究者共同追逐的目標(biāo)。
來自 Neflix、Stony Brook 大學(xué)等機(jī)構(gòu)的研究人員創(chuàng)新性地提出通過結(jié)構(gòu)化的潛在噪聲采樣控制運(yùn)動(dòng)。
實(shí)現(xiàn)方法很簡(jiǎn)單,只要對(duì)訓(xùn)練視頻做預(yù)處理,生成結(jié)構(gòu)化噪聲。這一過程不涉及擴(kuò)散模型的設(shè)計(jì),無需改變其架構(gòu)和訓(xùn)練流程。
研究提出了一種全新的噪聲扭曲算法,速度超快,能實(shí)時(shí)運(yùn)行。它用光流場(chǎng)推導(dǎo)的扭曲噪聲,取代隨機(jī)的時(shí)序高斯噪聲,同時(shí)保持了空間高斯性。由于算法高效,能用扭曲噪聲以極小的成本微調(diào)視頻擴(kuò)散基礎(chǔ)模型。
這為用戶提供了全面的運(yùn)動(dòng)控制方案,可用于局部物體運(yùn)動(dòng)控制、全局?jǐn)z像機(jī)運(yùn)動(dòng)控制以及運(yùn)動(dòng)遷移等場(chǎng)景。
此外,算法兼顧了扭曲噪聲的時(shí)序一致性和空間高斯性,既能保證每幀畫面的像素質(zhì)量,又能有效控制運(yùn)動(dòng)。
論文鏈接:https://arxiv.org/pdf/2501.08331
本研究的貢獻(xiàn)如下:
創(chuàng)新的視頻擴(kuò)散模型解決方案:提出一種簡(jiǎn)單新穎的方法,將運(yùn)動(dòng)控制轉(zhuǎn)化為可用于噪聲變形的流場(chǎng),在潛在空間采樣時(shí)能直接使用。它不僅能與任意視頻擴(kuò)散基礎(chǔ)模型搭配,還可和其他控制方式協(xié)同使用。
高效的噪聲變形算法:研發(fā)出高效的噪聲變形算法,它既能保持空間高斯性,又能追蹤跨幀的時(shí)間運(yùn)動(dòng)流。這讓微調(diào)運(yùn)動(dòng)可控的視頻擴(kuò)散模型時(shí),花費(fèi)的成本最小,操作也更方便。
實(shí)驗(yàn)和用戶研究充分驗(yàn)證了該方法在各類運(yùn)動(dòng)控制應(yīng)用中的優(yōu)勢(shì)。這些應(yīng)用涵蓋局部物體運(yùn)動(dòng)控制、運(yùn)動(dòng)傳遞到新場(chǎng)景、基于參考的全局相機(jī)運(yùn)動(dòng)控制等。在像素質(zhì)量、可控性、時(shí)間連貫性以及用戶主觀偏好等方面,表現(xiàn)十分優(yōu)異。
Go-with-the-Flow
當(dāng)前的視頻擴(kuò)散模型存在局限性,研究者提出了一種創(chuàng)新且簡(jiǎn)單的方法,旨在把運(yùn)動(dòng)控制當(dāng)作結(jié)構(gòu)化組件,融入到視頻擴(kuò)散模型潛在空間的無序狀態(tài)中。
具體實(shí)現(xiàn)方式是關(guān)聯(lián)潛在噪聲的時(shí)間分布。
先從二維高斯噪聲片入手,把它和根據(jù)訓(xùn)練視頻樣本提取的光流場(chǎng)算出來的扭曲噪聲片,按照時(shí)間順序連接起來。下圖清晰展示了該方法的流程。
本文提出創(chuàng)新的噪聲扭曲算法,運(yùn)行速度極快,能夠?qū)崟r(shí)運(yùn)行。
傳統(tǒng)方法需從初始幀起,對(duì)每一幀都進(jìn)行一系列復(fù)雜的扭曲操作,而本文的算法則通過在連續(xù)幀之間迭代扭曲噪聲來實(shí)現(xiàn)目標(biāo)。
具體來說,研究者在像素層面精準(zhǔn)地追蹤噪聲和光流密度,依據(jù)前向、后向光流,計(jì)算畫面的擴(kuò)展與收縮變化,以此來確定噪聲的扭曲方式。
同時(shí),結(jié)合 HIWYN 提出的條件白噪聲采樣方法,保證算法在運(yùn)行過程中始終維持高斯性。
在視頻擴(kuò)散推理階段,本文提出的方法優(yōu)勢(shì)明顯,能依據(jù)不同運(yùn)動(dòng)類型,自動(dòng)調(diào)整噪聲變形,為多種運(yùn)動(dòng)控制應(yīng)用提供一站式解決方案。
局部物體運(yùn)動(dòng)控制:當(dāng)用戶想要控制局部物體運(yùn)動(dòng)時(shí),只需給出拖動(dòng)信號(hào),就能在物體輪廓范圍內(nèi)靈活改變?cè)肼曉?,讓局部物體按照需求運(yùn)動(dòng)。
全局相機(jī)運(yùn)動(dòng)控制:針對(duì)全局相機(jī)運(yùn)動(dòng)的控制,復(fù)用參考視頻里的光流數(shù)據(jù),對(duì)輸入噪聲進(jìn)行扭曲處理,這樣就能在不同文本描述或初始幀條件下,重新生成視頻。
任意運(yùn)動(dòng)傳遞:進(jìn)行任意運(yùn)動(dòng)傳遞時(shí),運(yùn)動(dòng)表達(dá)方式不再局限于常見光流,還包括 3D 渲染引擎生成的光流、深度變形等形式。
Go-with-the-Flow 主要由兩部分組成:噪聲扭曲算法和視頻擴(kuò)散微調(diào)。
噪聲扭曲算法運(yùn)行時(shí),和擴(kuò)散模型的訓(xùn)練流程互不干擾。研究團(tuán)隊(duì)利用這個(gè)算法生成噪聲模式,再用這些模式去訓(xùn)練擴(kuò)散模型。
本研究中的運(yùn)動(dòng)控制完全基于噪聲初始化,在視頻擴(kuò)散模型中沒有添加任何額外參數(shù),這樣既能簡(jiǎn)化模型結(jié)構(gòu),又能提高運(yùn)行效率。
HIWYN 提出將噪聲扭曲應(yīng)用于圖像擴(kuò)散模型的設(shè)想。受此啟發(fā),研究團(tuán)隊(duì)發(fā)現(xiàn)了扭曲噪聲的新用法,就是把它作為視頻生成模型的運(yùn)動(dòng)控制條件。
研究團(tuán)隊(duì)使用由大量視頻和扭曲噪聲對(duì)構(gòu)成的數(shù)據(jù)集,對(duì)視頻擴(kuò)散模型進(jìn)行微調(diào)。經(jīng)過這樣的處理,在推理階段就能很好地控制視頻里的運(yùn)動(dòng)了。
噪聲扭曲算法
為了便于進(jìn)行大規(guī)模噪聲扭曲操作,研究團(tuán)隊(duì)研發(fā)出一種快速噪聲扭曲算法。
這個(gè)算法是逐幀處理噪聲的,只需要存儲(chǔ)前一幀噪聲(尺寸是 H×W×C)和每個(gè)像素的光流密度值矩陣(尺寸為 H×W),這里的密度值能體現(xiàn)特定區(qū)域中噪聲的壓縮程度。
HIWYN 算法在運(yùn)行時(shí),需要進(jìn)行耗時(shí)的多邊形光柵化和每個(gè)像素的上采樣操作。
新算法直接根據(jù)光流追蹤幀與幀之間畫面的擴(kuò)展和收縮情況,全程只用到像素級(jí)別的操作,這些操作還很容易實(shí)現(xiàn)并行處理,大大提高了效率。
新算法和 HIWYN 算法一樣,都能保證噪聲的高斯性。
下一幀噪聲扭曲
噪聲扭曲算法通過迭代方式來計(jì)算噪聲,某一幀的噪聲計(jì)算僅取決于前一幀的狀態(tài)。
假設(shè)每幀視頻的尺寸是 H×W,用
代表一個(gè)高為 H、寬為 W 的二維矩陣。
已知前一幀的噪聲 q 和流密度
,同時(shí)知道正向流 f 和反向流 f′:
,基于這些條件,算法就能算出下一幀的噪聲 q′和流密度
,q′(或 p′)與前一幀的 q(或 p)通過流在時(shí)間上建立起關(guān)聯(lián)。
本文的算法結(jié)合了擴(kuò)展和收縮兩種動(dòng)態(tài)機(jī)制。
當(dāng)視頻里某個(gè)區(qū)域放大,或者有物體朝著相機(jī)移動(dòng)時(shí),就會(huì)觸發(fā)擴(kuò)展機(jī)制。在這種情況下,當(dāng)前幀的一個(gè)噪聲像素,會(huì)在下一幀中對(duì)應(yīng)一個(gè)或多個(gè)噪聲像素,這就是擴(kuò)展。
在收縮時(shí),研究者借鑒了拉格朗日流體動(dòng)力學(xué)的思路,把噪聲像素想象成沿著前向光流 f 移動(dòng)的粒子。
這些粒子移動(dòng)后,畫面中往往會(huì)留下空白區(qū)域。對(duì)于前向光流 f 沒有覆蓋到的區(qū)域,就利用反向光流 f' 拉回一個(gè)噪聲像素,再用擴(kuò)展過程中算好的噪聲去填充這些空白。
此外,為了長(zhǎng)時(shí)間維持噪聲分布的正確性,研究團(tuán)隊(duì)借助密度值,來記錄特定區(qū)域內(nèi)噪聲像素的聚集數(shù)量。
在收縮情形下,當(dāng)這些噪聲像素與附近其他粒子混合時(shí),密度較高的粒子會(huì)有更大的權(quán)重。
為了同時(shí)處理好擴(kuò)展和收縮這兩種情況,研究者構(gòu)建了一個(gè)二分圖 G。圖里的邊表明了噪聲和密度從前一幀傳遞到下一幀的方式。
在綜合考慮圖中各邊的作用,生成下一幀噪聲 q' 時(shí),依據(jù)光流密度對(duì)噪聲進(jìn)行縮放,以此確保原始幀的分布特性能夠得以保留。
同時(shí)計(jì)算擴(kuò)展和收縮的情況,避免它們相互干擾,就能確保最終輸出的結(jié)果符合完美的高斯分布。
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證方案的有效性,研究團(tuán)隊(duì)開展了大量實(shí)驗(yàn)及用戶調(diào)研。結(jié)果表明,在保持運(yùn)動(dòng)一致性和針對(duì)同一情境渲染不同的運(yùn)動(dòng)效果方面,該方案表現(xiàn)十分出色。
從實(shí)驗(yàn)數(shù)據(jù)和用戶反饋可知,本方案在像素畫面質(zhì)量、運(yùn)動(dòng)控制精準(zhǔn)度、與文本描述的契合度、視頻時(shí)間連貫性以及用戶喜好程度等方面,都具有顯著優(yōu)勢(shì)。
用 Moran's I 指標(biāo)衡量空間相關(guān)性,K-S 檢驗(yàn)評(píng)估正態(tài)性。選擇多種基準(zhǔn)進(jìn)行對(duì)比,包括固定獨(dú)立采樣噪聲、插值方法及其他噪聲扭曲算法。
可以看到,本文提出的方法在 Moran's I 指標(biāo)和 K-S 檢驗(yàn)中表現(xiàn)良好,表明無空間自相關(guān)性且符合正態(tài)分布;而雙線性、雙三次和最近鄰插值方法未能保持高斯性,存在空間自相關(guān)性且偏離正態(tài)分布。
本文的方法在保持空間高斯性上成效顯著,且在噪聲生成效率和實(shí)際應(yīng)用方面有很強(qiáng)的可行性。
實(shí)驗(yàn)結(jié)果表明,本文的方法效率極高,比并行的 InfRes 運(yùn)行更快,相比 HIWYN,速度提升了 26 倍,這得益于算法的線性時(shí)間復(fù)雜度。
算法的效率比實(shí)時(shí)速度快了一個(gè)數(shù)量級(jí),這說明在視頻擴(kuò)散模型微調(diào)時(shí)動(dòng)態(tài)應(yīng)用噪聲扭曲是可行的。
為驗(yàn)證噪聲扭曲算法有效性,將經(jīng)不同方法扭曲的噪聲輸入到用于超分辨率和人像重光照的預(yù)訓(xùn)練圖像擴(kuò)散模型中,通過評(píng)估輸出視頻的質(zhì)量和時(shí)間一致性。
結(jié)果顯示,本文的算法在時(shí)間一致性上比基線方法更出色,處理前景、背景和邊緣時(shí)穩(wěn)定性更好。
在 DifFRelight 視頻重光照任務(wù)中評(píng)估噪聲扭曲方法。推理時(shí),研究者從特定區(qū)域裁剪出畫面,并按照指定光照條件進(jìn)行處理。本文的方法在圖像和時(shí)間指標(biāo)上表現(xiàn)更好,能有效改進(jìn)圖像擴(kuò)散模型。
接下來聚焦視頻擴(kuò)散中的局部對(duì)象運(yùn)動(dòng)控制。為評(píng)估模型控制能力,將其與 SG-I2V、MotionClone 和 DragAnything 三種基線方法對(duì)比。
現(xiàn)有方法在處理復(fù)雜局部運(yùn)動(dòng)時(shí)存在局限,SG-I2V 會(huì)誤判運(yùn)動(dòng)導(dǎo)致場(chǎng)景平移,DragAnything 缺乏一致性易失真,MotionClone 難以捕捉細(xì)微動(dòng)態(tài)。
本文的模型在處理復(fù)雜運(yùn)動(dòng)時(shí)表現(xiàn)優(yōu)異,能保持對(duì)象保真度和三維一致性。大量研究和評(píng)估證實(shí)了本文的方法在運(yùn)動(dòng)一致性、視覺保真度和整體真實(shí)感方面優(yōu)勢(shì)顯著。
本文的方法同樣支持運(yùn)動(dòng)遷移和相機(jī)運(yùn)動(dòng)控制。
在 DAVIS 數(shù)據(jù)集的對(duì)象運(yùn)動(dòng)遷移中,運(yùn)動(dòng)保真度和視頻質(zhì)量更好,生成視頻與真實(shí)視頻還原度高。
在相機(jī)運(yùn)動(dòng)控制上,在 DL3DV 和 WonderJourney 數(shù)據(jù)集以及深度扭曲實(shí)驗(yàn)中表現(xiàn)出色。
在視頻首幀編輯能力上,能無縫融入新增對(duì)象并保留原始運(yùn)動(dòng),明顯優(yōu)于基線方法。
本研究提出了一種新穎的、速度快于實(shí)時(shí)的噪聲扭曲算法,它能將運(yùn)動(dòng)控制自然地融入視頻擴(kuò)散噪聲采樣過程。
研究者用這種噪聲扭曲技術(shù)對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理,以開展視頻擴(kuò)散微調(diào),從而提供了一種通用且用戶友好的范式,可應(yīng)用于各類運(yùn)動(dòng)可控的視頻生成場(chǎng)景。
參考資料:
https://x.com/EHuanglu/status/1882014762281865379
https://x.com/natanielruizg/status/1882121096859890140
https://eyeline-research.github.io/Go-with-the-Flow/
本文來自微信公眾號(hào):新智元(ID:AI_era),原標(biāo)題《一拖一拽,小貓活了!Netflix 等新作爆火,噪聲扭曲算法讓運(yùn)動(dòng)控制更簡(jiǎn)單》
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。