AI 生成視頻,邊生成邊實(shí)時(shí)播放,再不用等了!Adobe 與 MIT 聯(lián)手推出自回歸實(shí)時(shí)視頻生成技術(shù) ——CausVid。
思路就像從下載整部電影到直接觀(guān)看流媒體的轉(zhuǎn)變,在模型生成首幀畫(huà)面后,視頻便可以即時(shí)播放,后續(xù)內(nèi)容則動(dòng)態(tài)生成并無(wú)縫銜接。
如果你用過(guò)視頻生成模型,一定對(duì)漫長(zhǎng)的等待時(shí)間記憶深刻,生成一段 10 秒的視頻,往往需要等待好幾分鐘才可以開(kāi)始觀(guān)看。
研究團(tuán)隊(duì)表示,這一延遲的根本原因在于:傳統(tǒng)視頻生成模型普遍采用的雙向注意力機(jī)制,每一幀都需要參考前后幀的信息。
這就像寫(xiě)故事時(shí)必須先構(gòu)思好整個(gè)劇情的所有細(xì)節(jié)才能動(dòng)筆,在完整視頻生成完畢前,你看不到任何畫(huà)面。
為此,他們提出了一種全新的解決方案,通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型(DiT),構(gòu)建自回歸生成模型。
實(shí)驗(yàn)中,CausVid 基于自回歸生成的特性,無(wú)需額外訓(xùn)練就能支持多種應(yīng)用,生成速度和質(zhì)量均顯著超越現(xiàn)有方法。
研究團(tuán)隊(duì)還表示將很快開(kāi)源基于開(kāi)源模型的實(shí)現(xiàn)代碼。
用雙向教師監(jiān)督單向自回歸學(xué)生模型
如前所述,研究團(tuán)隊(duì)通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型(DiT),構(gòu)建自回歸生成模型。
為了進(jìn)一步提速實(shí)現(xiàn)實(shí)時(shí)視頻生成,作者通過(guò)分布匹配蒸餾(DMD)將生成步驟從 50 步縮減到僅需 4 步。
DMD 是一種擴(kuò)散模型蒸餾技術(shù),將多步擴(kuò)散模型轉(zhuǎn)換為快速的單步生成器。DMD 此前已在圖像生成中取得成功,Adobe Firefly 文生圖的快速模式就是基于此技術(shù)。
本次研究團(tuán)隊(duì)將其創(chuàng)新性地應(yīng)用到視頻擴(kuò)散模型中,實(shí)現(xiàn)了顯著加速。
然而,自回歸模型有一個(gè)核心難題 —— 誤差累積。
每一幀視頻都基于之前的幀生成,早期生成的任何細(xì)微缺陷都會(huì)被放大,導(dǎo)致生成的視頻逐漸偏離預(yù)期軌跡。
為了解決這一問(wèn)題,團(tuán)隊(duì)提出了非對(duì)稱(chēng)蒸餾策略。具體來(lái)說(shuō):
引入一個(gè)擁有未來(lái)信息的雙向教師模型,在蒸餾訓(xùn)練階段指導(dǎo)自回歸的單向?qū)W生模型。這種教師-學(xué)生結(jié)構(gòu)允許模型在生成未來(lái)幀時(shí)具備更強(qiáng)的精確度。
使用雙向教師模型生成的的噪聲-數(shù)據(jù)配對(duì)來(lái)預(yù)訓(xùn)練單向?qū)W生模型,提升其后蒸餾訓(xùn)練過(guò)程的穩(wěn)定性。
在訓(xùn)練過(guò)程中,針對(duì)不同時(shí)間點(diǎn)的視頻幀施加不同強(qiáng)度的噪聲,這一策略使模型能夠在測(cè)試時(shí)基于干凈的已生成幀對(duì)當(dāng)前幀進(jìn)行去噪。
通過(guò)這種創(chuàng)新性的非對(duì)稱(chēng)蒸餾方法,CausVid 顯著減少了自回歸模型的誤差累積問(wèn)題,并生成了更高質(zhì)量的視頻內(nèi)容。
這種非對(duì)稱(chēng)蒸餾形式中,學(xué)生模型和教師模型使用了不同的架構(gòu),而這只有在 DMD 風(fēng)格的蒸餾中才可行。其他方法,例如漸進(jìn)式蒸餾(Progressive Distillation)或一致性模型(Consistency Distillation),都要求學(xué)生模型和教師模型使用相同的架構(gòu)。
下面是自回歸擴(kuò)散視頻模型的誤差累積示例(左圖)和 CausVid 結(jié)果(右圖)對(duì)比:
實(shí)驗(yàn)效果如何?
實(shí)驗(yàn)中,CausVid 表現(xiàn)驚艷:
首幀生成延遲從 3.5 分鐘降至 1.3 秒,提速 170 倍
生成速度從 0.6 幀 / 秒提升至 9.4 幀 / 秒,提升 16 倍
生成質(zhì)量經(jīng) VBench 和用戶(hù)調(diào)查驗(yàn)證,優(yōu)于主流模型例如 Meta 的 MovieGen 和智譜的 CogVideoX
得益于單向注意力機(jī)制,CausVid 完全支持在大語(yǔ)言模型中廣泛應(yīng)用的 KV 緩存推理技術(shù),從而顯著提升了生成效率。結(jié)合滑動(dòng)窗口機(jī)制,CausVid 突破了傳統(tǒng)模型的長(zhǎng)度限制。
盡管訓(xùn)練階段僅接觸過(guò) 10 秒的視頻,CausVid 依然能夠生成長(zhǎng)達(dá) 30 秒甚至更長(zhǎng)的視頻,其生成速度和質(zhì)量均顯著超越現(xiàn)有方法。
基于自回歸生成的特性,CausVid 無(wú)需額外訓(xùn)練就能支持多種應(yīng)用:
圖片動(dòng)畫(huà)化:將靜態(tài)圖片自然轉(zhuǎn)化為流暢視頻,賦予畫(huà)面生命力。
實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)換:如將 Minecraft 游戲畫(huà)面即時(shí)轉(zhuǎn)換為真實(shí)場(chǎng)景。這一技術(shù)為游戲渲染帶來(lái)全新思路:未來(lái)可能只需渲染基礎(chǔ) 3D 幾何信息,由 AI 實(shí)時(shí)補(bǔ)充紋理和光影
交互式劇情生成:用戶(hù)通過(guò)調(diào)整提示詞,實(shí)時(shí)引導(dǎo)視頻劇情發(fā)展,帶來(lái)全新的創(chuàng)作體驗(yàn)。
項(xiàng)目鏈接:https://causvid.github.io/
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。