可通過文字生成連貫動作視頻，谷歌推出 AI 擴散模型 Lumiere

2024/1/29 10:42:45 來源：IT之家作者：漾仔（實習） 責編：漾仔

評論：

IT之家 1 月 29 日消息，谷歌研究院日前推出了一款名為 Lumiere 的“文生視頻”擴散模型，主打采用自家最新開發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu)，號稱能夠一次生成“完整、真實、動作連貫”的視頻。

▲ 圖源谷歌官方新聞稿（下同）

谷歌表示，業(yè)界絕大多數(shù)“文生視頻”模型無法生成時間長、質(zhì)量佳、動作連貫逼真的內(nèi)容，這是因為此類模型通?！胺侄紊梢曨l”，首先產(chǎn)生幾張關(guān)鍵幀，接著用“時間超級分辨率（Temporal Super-Resolution）”技術(shù)，生成關(guān)鍵幀之間的視頻文件，這種方法雖然能夠節(jié)省 RAM，但難以生成“連貫逼真”的視頻。

谷歌提到，他們的新模型 Lumiere 相對于業(yè)界模型最大的不同是采用了全新“Space-Time U-Net”基礎(chǔ)架構(gòu)，該架構(gòu)能夠在空間和時間上同時“降采樣（Downsample）”信號，從而在“更緊湊的時空中進行更多運算”，令 Lumiere 生成持續(xù)時間更長、動作更連貫的視頻。

IT之家注意到，Lumiere 一次可以生成 80 幀視頻（16FPS 下 5 秒視頻 / 24FPS 下約 3.34 秒視頻），雖然這一數(shù)據(jù)看起來很短，不過研究人員提到，5 秒視頻長度實際上“已經(jīng)超過大多數(shù)媒體作品中的平均鏡頭時長”。

可通過文字生成連貫動作視頻，谷歌推出 AI 擴散模型 Lumiere

除了應用“Space-Time U-Net”基礎(chǔ)架構(gòu)外，谷歌還介紹了 Lumiere 的基礎(chǔ)特性，該 AI 建立在一個經(jīng)過預先訓練的“文生圖”模型基礎(chǔ)上，研究人員首先讓基礎(chǔ)模型生成視頻分幀的基本像素草稿，接著通過空間超分辨率（SSR）模型，逐步提升分幀分辨率及細節(jié)，并利用“Multidiffusion”通用生成框架提升模型穩(wěn)定性，從而保證了最終輸出的視頻一致性和連續(xù)性。

可通過文字生成連貫動作視頻，谷歌推出 AI 擴散模型 Lumiere

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

可通過文字生成連貫動作視頻，谷歌推出 AI 擴散模型 Lumiere

相關(guān)文章

可通過文字生成連貫動作視頻，谷歌推出 AI 擴散模型 Lumiere