首頁(yè) > 科學(xué)探索>科技前沿

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

量子位 2024/12/10 23:50:15 責(zé)編：問(wèn)舟

評(píng)論：

AI 生成視頻，邊生成邊實(shí)時(shí)播放，再不用等了！Adobe 與 MIT 聯(lián)手推出自回歸實(shí)時(shí)視頻生成技術(shù) ——CausVid。

思路就像從下載整部電影到直接觀(guān)看流媒體的轉(zhuǎn)變，在模型生成首幀畫(huà)面后，視頻便可以即時(shí)播放，后續(xù)內(nèi)容則動(dòng)態(tài)生成并無(wú)縫銜接。

如果你用過(guò)視頻生成模型，一定對(duì)漫長(zhǎng)的等待時(shí)間記憶深刻，生成一段 10 秒的視頻，往往需要等待好幾分鐘才可以開(kāi)始觀(guān)看。

研究團(tuán)隊(duì)表示，這一延遲的根本原因在于：傳統(tǒng)視頻生成模型普遍采用的雙向注意力機(jī)制，每一幀都需要參考前后幀的信息。

這就像寫(xiě)故事時(shí)必須先構(gòu)思好整個(gè)劇情的所有細(xì)節(jié)才能動(dòng)筆，在完整視頻生成完畢前，你看不到任何畫(huà)面。

為此，他們提出了一種全新的解決方案，通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型（DiT），構(gòu)建自回歸生成模型。

實(shí)驗(yàn)中，CausVid 基于自回歸生成的特性，無(wú)需額外訓(xùn)練就能支持多種應(yīng)用，生成速度和質(zhì)量均顯著超越現(xiàn)有方法。

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

研究團(tuán)隊(duì)還表示將很快開(kāi)源基于開(kāi)源模型的實(shí)現(xiàn)代碼。

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

用雙向教師監(jiān)督單向自回歸學(xué)生模型

如前所述，研究團(tuán)隊(duì)通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型（DiT），構(gòu)建自回歸生成模型。

為了進(jìn)一步提速實(shí)現(xiàn)實(shí)時(shí)視頻生成，作者通過(guò)分布匹配蒸餾（DMD）將生成步驟從 50 步縮減到僅需 4 步。

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

DMD 是一種擴(kuò)散模型蒸餾技術(shù)，將多步擴(kuò)散模型轉(zhuǎn)換為快速的單步生成器。DMD 此前已在圖像生成中取得成功，Adobe Firefly 文生圖的快速模式就是基于此技術(shù)。

本次研究團(tuán)隊(duì)將其創(chuàng)新性地應(yīng)用到視頻擴(kuò)散模型中，實(shí)現(xiàn)了顯著加速。

然而，自回歸模型有一個(gè)核心難題 —— 誤差累積。

每一幀視頻都基于之前的幀生成，早期生成的任何細(xì)微缺陷都會(huì)被放大，導(dǎo)致生成的視頻逐漸偏離預(yù)期軌跡。

為了解決這一問(wèn)題，團(tuán)隊(duì)提出了非對(duì)稱(chēng)蒸餾策略。具體來(lái)說(shuō)：

引入一個(gè)擁有未來(lái)信息的雙向教師模型，在蒸餾訓(xùn)練階段指導(dǎo)自回歸的單向?qū)W生模型。這種教師-學(xué)生結(jié)構(gòu)允許模型在生成未來(lái)幀時(shí)具備更強(qiáng)的精確度。

使用雙向教師模型生成的的噪聲-數(shù)據(jù)配對(duì)來(lái)預(yù)訓(xùn)練單向?qū)W生模型，提升其后蒸餾訓(xùn)練過(guò)程的穩(wěn)定性。

在訓(xùn)練過(guò)程中，針對(duì)不同時(shí)間點(diǎn)的視頻幀施加不同強(qiáng)度的噪聲，這一策略使模型能夠在測(cè)試時(shí)基于干凈的已生成幀對(duì)當(dāng)前幀進(jìn)行去噪。

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

通過(guò)這種創(chuàng)新性的非對(duì)稱(chēng)蒸餾方法，CausVid 顯著減少了自回歸模型的誤差累積問(wèn)題，并生成了更高質(zhì)量的視頻內(nèi)容。

這種非對(duì)稱(chēng)蒸餾形式中，學(xué)生模型和教師模型使用了不同的架構(gòu)，而這只有在 DMD 風(fēng)格的蒸餾中才可行。其他方法，例如漸進(jìn)式蒸餾（Progressive Distillation）或一致性模型（Consistency Distillation），都要求學(xué)生模型和教師模型使用相同的架構(gòu)。

下面是自回歸擴(kuò)散視頻模型的誤差累積示例（左圖）和 CausVid 結(jié)果（右圖）對(duì)比：

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

實(shí)驗(yàn)效果如何？

實(shí)驗(yàn)中，CausVid 表現(xiàn)驚艷：

首幀生成延遲從 3.5 分鐘降至 1.3 秒，提速 170 倍
生成速度從 0.6 幀 / 秒提升至 9.4 幀 / 秒，提升 16 倍
生成質(zhì)量經(jīng) VBench 和用戶(hù)調(diào)查驗(yàn)證，優(yōu)于主流模型例如 Meta 的 MovieGen 和智譜的 CogVideoX

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

得益于單向注意力機(jī)制，CausVid 完全支持在大語(yǔ)言模型中廣泛應(yīng)用的 KV 緩存推理技術(shù)，從而顯著提升了生成效率。結(jié)合滑動(dòng)窗口機(jī)制，CausVid 突破了傳統(tǒng)模型的長(zhǎng)度限制。

盡管訓(xùn)練階段僅接觸過(guò) 10 秒的視頻，CausVid 依然能夠生成長(zhǎng)達(dá) 30 秒甚至更長(zhǎng)的視頻，其生成速度和質(zhì)量均顯著超越現(xiàn)有方法。

基于自回歸生成的特性，CausVid 無(wú)需額外訓(xùn)練就能支持多種應(yīng)用：

圖片動(dòng)畫(huà)化：將靜態(tài)圖片自然轉(zhuǎn)化為流暢視頻，賦予畫(huà)面生命力。
實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)換：如將 Minecraft 游戲畫(huà)面即時(shí)轉(zhuǎn)換為真實(shí)場(chǎng)景。這一技術(shù)為游戲渲染帶來(lái)全新思路：未來(lái)可能只需渲染基礎(chǔ) 3D 幾何信息，由 AI 實(shí)時(shí)補(bǔ)充紋理和光影
交互式劇情生成：用戶(hù)通過(guò)調(diào)整提示詞，實(shí)時(shí)引導(dǎo)視頻劇情發(fā)展，帶來(lái)全新的創(chuàng)作體驗(yàn)。

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

項(xiàng)目鏈接：https://causvid.github.io/

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Adobe&MIT 新研究：AI 視頻邊生成邊播放，首幀延遲 1.3 秒、生成速度 9.4 幀 / 秒

用雙向教師監(jiān)督單向自回歸學(xué)生模型

實(shí)驗(yàn)效果如何？

相關(guān)文章

實(shí)驗(yàn)效果如何？