設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 10 秒視頻生成模型 VideoPoet 破世界記錄!LLM 終結擴散模型,效果碾壓頂流 Gen-2

新智元 2023/12/20 23:32:41 責編:問舟

谷歌全新視頻生成模型 VideoPoet 再次引領世界!十秒超長視頻生成效果碾壓 Gen-2,還可進行音頻生成,風格轉化。AI 視頻生成,或許就是 2024 年下一個最前沿(juan)的領域。

回看過去幾個月,RunWay 的 Gen-2、Pika Lab 的 Pika 1.0,國內大廠等大波視頻生成模型紛紛涌現,不斷迭代升級。

這不,RunWay 一大早就宣布 Gen-2 支持文本轉語音的功能了,可以為視頻創(chuàng)建畫外音。

當然,谷歌在視頻生成上也不甘落后,先是與斯坦福李飛飛團隊共同發(fā)布了 W.A.L.T,用 Transformer 生成的逼真視頻引來大波關注。

今天,谷歌團隊又發(fā)布了一個全新的視頻生成模型 VideoPoet,而且無需特定數據便可生成視頻。

論文地址:https://blog.research.google/ 2023/12 / videopoet-large-language-model-for-zero.html

最令人驚嘆的是,VideoPoet 一次能夠生成 10 秒超長,且連貫大動作視頻,完全碾壓 Gen-2 僅有小幅動作的視頻生成。

另外,與領先模型不同的是,VideoPoet 并非基于擴散模型,而是多模態(tài)大模型,便可擁有 T2V、V2A 等能力,或將成為未來視頻生成的主流。

網友看后紛紛「震驚」刷屏。

不如,接下來可以先看一波體驗。

文字轉視頻

在文本到視頻的轉換中,生成的視頻長度是可變的,并且能夠根據文本內容展現出多種動作和風格。

比如,熊貓打牌:

Two pandas playing cards

南瓜爆炸:

A pumpkin exploding, slow motion

宇航員策馬奔馳:

An astronaut riding a galloping horse

圖像轉視頻

VideoPoet 還可以根據給定的提示,將輸入的圖像轉換成動畫。

左:一艘船在波濤洶涌的海面上航行,周圍是雷電交加的景象,以動態(tài)油畫風格呈現
中:飛過充滿閃爍星星的星云
右:一位拄著手杖的旅行者站在懸崖邊,凝視著風中翻騰的海霧

視頻風格化

對于視頻風格化,VideoPoet 先預測光流和深度信息,然后再將額外的文本輸入到模型。

左:袋熊戴著墨鏡,在陽光明媚的海灘上拿著沙灘球 
中:泰迪熊在清澈的冰面上滑冰
右:一只金屬獅子在熔爐的光芒下咆哮

從左到右:逼真,數字藝術,鉛筆藝術,水墨,雙重曝光,360 度全景

視頻轉音頻

VideoPoet 還能生成音頻。

如下,首先從模型中生成 2 秒鐘的動畫片段,然后在沒有任何文本引導的情況下嘗試預測音頻。這樣就能從一個模型中生成視頻和音頻。

通常情況下,VideoPoet 以縱向的方式生成視頻,以便與短片視頻的輸出相一致。

谷歌還專門做了一部由 VideoPoet 生成的許多短片組成的簡短電影。

具體文本比編排上,研究人員要求 Bard 先寫一個關于一只旅行浣熊的短篇故事,并附帶場景分解和提示列表。然后,為每個提示生成視頻片段,并將所有生成的片段拼接在一起,制作出下面的最終視頻。

視頻講故事

通過隨時間變化的提示,可以創(chuàng)造視覺上的故事敘述。

輸入:一個由水構成的行走的人
擴展:一個由水構成的行走的人。背景中有閃電,同時從這個人身上散發(fā)出紫色的煙霧

輸入:兩只浣熊騎著摩托車在松樹環(huán)繞的山路上行駛,8k
擴展:兩只浣熊騎著摩托車。流星雨從浣熊身后墜落,撞擊地面并引發(fā)爆炸

LLM 秒變視頻生成器

當前,Gen-2、Pika 1.0 視屏生成的表現足以驚人,但是遺憾的是,無法在連貫大幅動作的視頻生成上表現驚艷。

通常,它們在產生較大動作時,視頻會出現明顯的偽影。

對此,谷歌研究人員提出了 VideoPoet,能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風格化、視頻修復 / 擴展和視頻到音頻等多樣的視頻生成任務。

相比起其他模型,谷歌的方法是將多種視頻生成功能無縫集成到單一的大語言模型中,而不依賴針對各個任務分別訓練的專用組件。

具體來說,VideoPoet 主要包含以下幾個組件:

  • 預訓練的 MAGVIT V2 視頻 tokenizer 和 SoundStream 音頻 tokenizer,能將不同長度的圖像、視頻和音頻剪輯轉換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語言模型兼容,便于與文本等其他模態(tài)進行結合。

  • 自回歸語言模型可在視頻、圖像、音頻和文本之間進行跨模態(tài)學習,并以自回歸方式預測序列中下一個視頻或音頻 token。

  • 在大語言模型訓練框架中引入了多種多模態(tài)生成學習目標,包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復 / 擴展、視頻風格化和視頻到音頻等。此外,這些任務可以相互結合,實現額外的零樣本功能(例如,文本到音頻)。

VideoPoet 能夠在各種以視頻為中心的輸入和輸出上進行多任務處理。其中,LLM 可選擇將文本作為輸入,來指導文本到視頻、圖像到視頻、視頻到音頻、風格化和擴圖任務的生成

使用 LLM 進行訓練的一個關鍵優(yōu)勢是,可以重用現有 LLM 訓練基礎設施中引入的許多可擴展的效率改進。

不過,LLM 是在離散 token 上運行的,這可能會給視頻生成帶來挑戰(zhàn)。

幸運的是,視頻和音頻 tokenizer,可以將視頻和音頻剪輯編碼為離散 token 序列(即整數索引),并可以將其轉換回原始表示。

VideoPoet 訓練一個自回歸語言模型,通過使用多個 tokenizer(用于視頻和圖像的 MAGVIT V2,用于音頻的 SoundStream)來跨視頻、圖像、音頻和文本模態(tài)進行學習。

一旦模型根據上下文生成了 token,就可以使用 tokenizer 解碼器將這些 token 轉換回可查看的表示形式。

VideoPoet 任務設計:不同模態(tài)通過 tokenizer 編碼器和解碼器與 token 相互轉換。每個模態(tài)周圍都有邊界 token,任務 token 表示要執(zhí)行的任務類型

三大優(yōu)勢

概括來說,VideoPoet 比起 Gen-2 等視頻生成模型,具備以下三大優(yōu)勢。

更長的視頻

VideoPoet 通過對視頻的最后 1 秒進行調節(jié),并預測接下來的 1 秒,就可以生成更長的視頻。

通過反復循環(huán),VideoPoet 通不僅可以很好地擴展視頻,而且即使在多次迭代中,也能忠實地保留所有對象的外觀。

如下是 VideoPoet 從文本輸入生成長視頻的兩個示例:

左:宇航員在火星上跳舞,背景是五彩繽紛的煙花
右:無人機拍攝的叢林中一座非常尖銳的精靈石城,城中有一條湛藍的河流、瀑布和陡峭的垂直懸崖
相比于其他只能生成 3-4 秒視頻的模型,VideoPoet 一次就可以生成長達 10 秒的視頻。

無人機拍攝的古堡秋景

精準的控制

視頻生成應用一個非常重要的能力在于,對于生成的動態(tài)效果,用戶有多大的控制能力。

這將很大程度上決定了模型能否被用來制作復雜連貫的長視頻。

VideoPoet 不但可以為輸入的圖像通過文字描述來添加動態(tài)效果,并通過文本提示來調整內容,來達到預期的效果。

左:轉身看鏡頭;右:打哈欠

除了支持輸入圖像的視頻編輯,視頻輸入也可以通過文字進行精確控制。

針對最左邊的小浣熊跳舞視頻,用戶可以通過文字描述不同的舞姿來讓它跳不同的舞蹈。

生成「左」:跳機器人舞
生成「中」:跳 Griddy 舞
生成「右」:來一段 Freestyle

同樣,還可以對 VideoPoet 生成的現有視頻片段,進行交互式編輯。

如果我們提供一個輸入視頻,就可以改變對象的運動來執(zhí)行不同的動作。對物體的操作可以以第一幀或中間幀為中心,從而實現高度的編輯控制。

比如,可以從輸入視頻中隨機生成一些片段,然后選擇所需的下一個片段。

如圖中最左邊的視頻被用作條件反射,在初始提示下生成四個視頻:

「一個可愛的銹跡斑斑的破舊蒸汽朋克機器人的特寫,機器人身上長滿了青苔和新芽,周圍是高高的草叢」。

對于前 3 個輸出,沒有提示動作的自主預測生成。最后一個視頻,是在提示中添加了「啟動,背景為煙霧」以引導動作生成。

運鏡的手法

VideoPoet 還可以通過在文本提示中,附加所需的運鏡方式,來精確控制畫面的變化。

例如,研究人員通過模型生成了一幅圖像,提示為「冒險游戲概念圖,雪山日出,清澈河流」。下面的示例將給定的文本后綴添加到所需的動作中。

從左到右:拉遠、滑動變焦、向左平移、弧型運動鏡頭、搖臂拍攝、無人機航拍

評估結果

最后,VideoPoet 在具體的實驗評測中的表現又如何呢?

為了確保評估的客觀性,谷歌研究人員在在各種提示上運行所有模型,并讓人們對其偏好進行評分。

下圖顯示了在以下問題中,VideoPoet 被選為綠色首選項的百分比。

文本保真度:

文本保真度的用戶偏好評級,即在準確遵循提示方面首選視頻的百分比。

動作趣味性:

用戶對動作趣味性的偏好評級,即在產生有趣的動作方面,首選視頻的百分比。

綜上可見,平均有 24-35% 的人認為 VideoPoet 生成的示例比其他模型更加遵循提示,而其他模型的這一比例僅為 8-11%。

此外,41%-54% 的評估者認為 VideoPoet 中的示例動作更有趣,而其他模型只有 11%-21%。

對于未來的研究方向,谷歌研究人員表示,VideoPoet 框架將會實現「any-to-any」的生成,比如擴展文本到音頻、音頻到視頻,以及視頻字幕等等。

網友不禁發(fā)問,Runway 和 Pika 能否抵擋住谷歌和 OpenAI 即將推出的文本到視頻創(chuàng)新技術?

參考資料:

  • https://sites.research.google/videopoet/

  • https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:谷歌Transformer,VideoPoetW.A.L.T

軟媒旗下網站: IT之家 最會買 - 返利返現優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知