首頁 > 科學(xué)探索>科技前沿

谷歌把 AI 視頻造假搞得太真太簡單了

量子位 2023/1/18 18:56:06 責編：夢澤

評論：

原文標題：《這段視頻火爆外網(wǎng)，谷歌把 AI 視頻造假搞得太真太簡單了》

家人們，AI 做視頻這事今天又被推向了輿論的風口浪尖。

起因是有人在網(wǎng)上發(fā)布了這么一只小企鵝的視頻：

谷歌把 AI 視頻造假搞得太真太簡單了

而這個近 50 秒視頻的誕生，靠的僅僅是 6 句話！

谷歌把 AI 視頻造假搞得太真太簡單了

陸陸續(xù)續(xù)的，網(wǎng)友們還在發(fā)布著這個 AI 的其它杰作：

谷歌把 AI 視頻造假搞得太真太簡單了

這次給它投喂的提示詞也是極短，僅 4 行：

谷歌把 AI 視頻造假搞得太真太簡單了

如此“所寫即所得”、絲滑連貫的視頻生成方式，也是令不少網(wǎng)友發(fā)出感慨：

未來已至。

谷歌把 AI 視頻造假搞得太真太簡單了

甚至還有人開始“拉仇恨”，說 AI 正在用各種方式摧毀行業(yè)……

谷歌把 AI 視頻造假搞得太真太簡單了

然后就有很多人發(fā)問了：“這又是哪家新搞的 AI 哇？”

谷歌把 AI 視頻造假搞得太真太簡單了

不過眼尖的網(wǎng)友發(fā)現(xiàn)它其實是一位“老朋友”了 ——

谷歌去年 10 月份便發(fā)布的一個文本轉(zhuǎn)視頻（Text-to-Video）模型：Phenaki。

只需一段提示詞，分分鐘可以生成長達兩分鐘的視頻。

谷歌把 AI 視頻造假搞得太真太簡單了

而相比 Phenaki 剛發(fā)布的時候，谷歌又來了一波上新操作。

那么我們現(xiàn)在就來一同看看這些新視頻吧~

打字就能生成的視頻

與以往 AI 生成的視頻不同，Phenaki 最大的特點便是有故事、有長度。

例如，我們再給這么一段場景描述：

在一座未來感十足的城市里，交通紛繁復(fù)雜，這時，一艘外星飛船抵達了城市。
隨著鏡頭的拉近，畫面進入到了飛船內(nèi)部；而后鏡頭沿著船內(nèi)長廊繼續(xù)向前推進，直到看到一名宇航員在藍色的房間里敲鍵盤打字。
鏡頭逐漸移向宇航員的左側(cè)，身后出現(xiàn)藍色海洋，魚兒們在水里徜徉；畫面快速放大聚焦到一條魚的身上。
隨后鏡頭快速從海里浮出，直到看到摩天大樓高聳林立的未來城市；鏡頭再快速拉近到一撞大樓的辦公室。
這時，一只獅子突然跳到辦公桌上并開始奔跑；鏡頭先聚焦到獅子的臉上，等再次拉遠時，這只獅子已經(jīng)幻化成西裝革履的“獸人”。
最后，鏡頭從辦公室拉出，落日余暉下鳥瞰這座城市。

想必不少友友們在讀這段文字過程中，腦中已經(jīng)浮現(xiàn)相應(yīng)的畫面了。

接下來，我們一起看看 Phenaki 生成的效果如何：

谷歌把 AI 視頻造假搞得太真太簡單了

是不是和你腦補出來的畫面一致呢？

總體來說，這個 AI 即便面對這種腦洞大開的場景提示詞，也是做到了無縫銜接的轉(zhuǎn)場。

也難怪網(wǎng)友們看完這段視頻后驚呼“（科技）發(fā)展得真快啊”。

谷歌把 AI 視頻造假搞得太真太簡單了

而對于篇幅稍短的提示詞，Phenaki 就更不在話下了。

例如，給 Phenaki 投喂這樣一段文字：

一只逼真的泰迪熊正在潛水；隨后它慢慢浮出水面；走上沙灘；這時鏡頭拉遠，泰迪熊行走在海灘邊篝火旁。

谷歌把 AI 視頻造假搞得太真太簡單了

沒看夠？那再來一段，這次換個主角：

在火星上，宇航員走過一個水坑，水里倒映著他的側(cè)影；他在水旁起舞；然后宇航員開始遛狗；最后他和小狗一起看火星上看煙花。

谷歌把 AI 視頻造假搞得太真太簡單了

而在谷歌更早發(fā)布 Phenaki 之際，還展示了向 Phenaki 輸入一個初始幀以及一個提示詞，便可以生成一段視頻的能力。

例如給定這樣一張靜態(tài)圖：

谷歌把 AI 視頻造假搞得太真太簡單了

然后再給它 Phenaki 簡單“投喂”一句：白貓用貓爪觸摸攝像機。效果就出來了：

谷歌把 AI 視頻造假搞得太真太簡單了

還是基于這張圖，把提示詞改成“一只白貓打哈欠”，效果就成這樣了：

谷歌把 AI 視頻造假搞得太真太簡單了

當然，任意切換視頻整體風格也是可以 hold 得住的：

谷歌把 AI 視頻造假搞得太真太簡單了

網(wǎng)友：視頻行業(yè)要被 AI 沖擊了嗎？

但除了 Phenaki 之外，谷歌當時還一道發(fā)布過 Imagen Video，能夠生成 1280*768 分辨率、每秒 24 幀的高清視頻片段。

谷歌把 AI 視頻造假搞得太真太簡單了

它基于圖像生成 SOTA 模型 Imagen，展示出了三種特別的能力：

能理解并生成不同藝術(shù)風格的作品，水彩、像素甚至梵高風格

能理解物體的 3D 結(jié)構(gòu)

繼承了 Imagen 準確描繪文字的能力

更早的，Meta 也發(fā)布了 Make-A-Video，不僅能夠通過文字轉(zhuǎn)換視頻，還能根據(jù)圖像生成視頻，比如：

將靜態(tài)圖像轉(zhuǎn)成視頻

插幀：根據(jù)前后兩張圖片生成一段視頻

根據(jù)原視頻生成新視頻

……

谷歌把 AI 視頻造假搞得太真太簡單了

對于這如“雨后春筍”突然冒出的生成視頻模型，不免會讓有些人擔心：

谷歌把 AI 視頻造假搞得太真太簡單了

當然也有人認為現(xiàn)在時機還未到：

0-1 總會很快，1-100 還是會很漫長。

谷歌把 AI 視頻造假搞得太真太簡單了

不過已經(jīng)有網(wǎng)友在期待靠 AI 拿奧斯卡獎了：

AI 要多久才能成為新的視頻編輯器，或者拿下奧斯卡？

谷歌把 AI 視頻造假搞得太真太簡單了

原理介紹

再說回 Phenaki，有不少網(wǎng)友都比較好奇它是如何通過文字生成這么絲滑的視頻的？

簡單來說，Phenaki 相較于以往的生成視頻模型，它更注重時間長度任意性和連貫性。

Phenaki 之所以能夠生成任意時間長度的視頻，很大程度上要歸功于新的編碼器-解碼器架構(gòu)：C-ViViT。

它是 ViViT 的一個因果變體，能夠?qū)⒁曨l壓縮為離散嵌入。

要知道，以往獲取視頻壓縮，要么就是編碼器不能及時壓縮視頻，導(dǎo)致最終生成的視頻過短，例如 VQ-GAN，要么就是編碼器只支持固定視頻長度，最終生成視頻的長度不能任意調(diào)節(jié)，例如 VideoVQVAE。

但 C-ViViT 就不一樣了，它可謂是兼顧了上面兩種架構(gòu)的優(yōu)點，能夠在時間和空間維度上壓縮視頻，并且在時間上保持自回歸的同時，還可以自回歸生成任意長度的視頻。

谷歌把 AI 視頻造假搞得太真太簡單了

C-ViViT 可以使模型生成任意長度的視頻，那最終視頻的邏輯性又是怎么保證的呢？

這就得靠 Phenaki 另外一個比較重要的部分：雙向 Transformer。

在這其中，為節(jié)省時間，采樣步驟是固定的，并且在處理文本提示的過程中，能同時預(yù)測不同的視頻 token。

這樣一來，結(jié)合前面提到的，C-ViViT 能夠在時間和空間維度上壓縮視頻，壓縮出來的 token 是具有時間邏輯性的。

也就是說，在這些 token 上經(jīng)過掩碼訓(xùn)練的 Transformer 也具備時間邏輯性，最終生成的視頻在連貫性自然也就有了保證。

谷歌把 AI 視頻造假搞得太真太簡單了

如果還想了解更多關(guān)于 Phenaki 的東西，可以戳這里查看。

Phenaki：

https://phenaki.github.io

參考鏈接：

[1] https://phenaki.video/
[2] https://phenaki.research.google/
[3] https://twitter.com/AiBreakfast/status/1614647018554822658
[4] https://twitter.com/EvanKirstel/status/1614676882758275072

本文來自微信公眾號：量子位（ID：QbitAI），作者：金磊 Pine

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌把 AI 視頻造假搞得太真太簡單了

打字就能生成的視頻

網(wǎng)友：視頻行業(yè)要被 AI 沖擊了嗎？

原理介紹

相關(guān)文章

網(wǎng)友：視頻行業(yè)要被 AI 沖擊了嗎？