設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌把 AI 視頻造假搞得太真太簡單了

量子位 2023/1/18 18:56:06 責編:夢澤

原文標題:《這段視頻火爆外網(wǎng),谷歌把 AI 視頻造假搞得太真太簡單了》

家人們,AI 做視頻這事今天又被推向了輿論的風口浪尖。

起因是有人在網(wǎng)上發(fā)布了這么一只小企鵝的視頻:

而這個近 50 秒視頻的誕生,靠的僅僅是 6 句話!

陸陸續(xù)續(xù)的,網(wǎng)友們還在發(fā)布著這個 AI 的其它杰作:

這次給它投喂的提示詞也是極短,僅 4 行

如此“所寫即所得”、絲滑連貫的視頻生成方式,也是令不少網(wǎng)友發(fā)出感慨:

未來已至。

甚至還有人開始“拉仇恨”,說 AI 正在用各種方式摧毀行業(yè)……

然后就有很多人發(fā)問了:“這又是哪家新搞的 AI 哇?”

不過眼尖的網(wǎng)友發(fā)現(xiàn)它其實是一位“老朋友”了 ——

谷歌去年 10 月份便發(fā)布的一個文本轉(zhuǎn)視頻(Text-to-Video)模型:Phenaki。

只需一段提示詞,分分鐘可以生成長達兩分鐘的視頻。

而相比 Phenaki 剛發(fā)布的時候,谷歌又來了一波上新操作。

那么我們現(xiàn)在就來一同看看這些新視頻吧~

打字就能生成的視頻

與以往 AI 生成的視頻不同,Phenaki 最大的特點便是有故事、有長度。

例如,我們再給這么一段場景描述:

在一座未來感十足的城市里,交通紛繁復(fù)雜,這時,一艘外星飛船抵達了城市。

隨著鏡頭的拉近,畫面進入到了飛船內(nèi)部;而后鏡頭沿著船內(nèi)長廊繼續(xù)向前推進,直到看到一名宇航員在藍色的房間里敲鍵盤打字。

鏡頭逐漸移向宇航員的左側(cè),身后出現(xiàn)藍色海洋,魚兒們在水里徜徉;畫面快速放大聚焦到一條魚的身上。

隨后鏡頭快速從海里浮出,直到看到摩天大樓高聳林立的未來城市;鏡頭再快速拉近到一撞大樓的辦公室。

這時,一只獅子突然跳到辦公桌上并開始奔跑;鏡頭先聚焦到獅子的臉上,等再次拉遠時,這只獅子已經(jīng)幻化成西裝革履的“獸人”。

最后,鏡頭從辦公室拉出,落日余暉下鳥瞰這座城市。

想必不少友友們在讀這段文字過程中,腦中已經(jīng)浮現(xiàn)相應(yīng)的畫面了。

接下來,我們一起看看 Phenaki 生成的效果如何:

是不是和你腦補出來的畫面一致呢?

總體來說,這個 AI 即便面對這種腦洞大開的場景提示詞,也是做到了無縫銜接的轉(zhuǎn)場。

也難怪網(wǎng)友們看完這段視頻后驚呼“(科技)發(fā)展得真快啊”。

而對于篇幅稍短的提示詞,Phenaki 就更不在話下了。

例如,給 Phenaki 投喂這樣一段文字:

一只逼真的泰迪熊正在潛水;隨后它慢慢浮出水面;走上沙灘;這時鏡頭拉遠,泰迪熊行走在海灘邊篝火旁。

沒看夠?那再來一段,這次換個主角:

在火星上,宇航員走過一個水坑,水里倒映著他的側(cè)影;他在水旁起舞;然后宇航員開始遛狗;最后他和小狗一起看火星上看煙花。

而在谷歌更早發(fā)布 Phenaki 之際,還展示了向 Phenaki 輸入一個初始幀以及一個提示詞,便可以生成一段視頻的能力。

例如給定這樣一張靜態(tài)圖:

然后再給它 Phenaki 簡單“投喂”一句:白貓用貓爪觸摸攝像機。效果就出來了:

還是基于這張圖,把提示詞改成“一只白貓打哈欠”,效果就成這樣了:

當然,任意切換視頻整體風格也是可以 hold 得住的:

網(wǎng)友:視頻行業(yè)要被 AI 沖擊了嗎?

但除了 Phenaki 之外,谷歌當時還一道發(fā)布過 Imagen Video,能夠生成 1280*768 分辨率、每秒 24 幀的高清視頻片段。

它基于圖像生成 SOTA 模型 Imagen,展示出了三種特別的能力:

能理解并生成不同藝術(shù)風格的作品,水彩、像素甚至梵高風格

能理解物體的 3D 結(jié)構(gòu)

繼承了 Imagen 準確描繪文字的能力

更早的,Meta 也發(fā)布了 Make-A-Video,不僅能夠通過文字轉(zhuǎn)換視頻,還能根據(jù)圖像生成視頻,比如:

將靜態(tài)圖像轉(zhuǎn)成視頻

插幀:根據(jù)前后兩張圖片生成一段視頻

根據(jù)原視頻生成新視頻

……

對于這如“雨后春筍”突然冒出的生成視頻模型,不免會讓有些人擔心:

當然也有人認為現(xiàn)在時機還未到:

0-1 總會很快,1-100 還是會很漫長。

不過已經(jīng)有網(wǎng)友在期待靠 AI 拿奧斯卡獎了:

AI 要多久才能成為新的視頻編輯器,或者拿下奧斯卡?

原理介紹

再說回 Phenaki,有不少網(wǎng)友都比較好奇它是如何通過文字生成這么絲滑的視頻的?

簡單來說,Phenaki 相較于以往的生成視頻模型,它更注重時間長度任意性連貫性。

Phenaki 之所以能夠生成任意時間長度的視頻,很大程度上要歸功于新的編碼器-解碼器架構(gòu):C-ViViT

它是 ViViT 的一個因果變體,能夠?qū)⒁曨l壓縮為離散嵌入。

要知道,以往獲取視頻壓縮,要么就是編碼器不能及時壓縮視頻,導(dǎo)致最終生成的視頻過短,例如 VQ-GAN,要么就是編碼器只支持固定視頻長度,最終生成視頻的長度不能任意調(diào)節(jié),例如 VideoVQVAE。

但 C-ViViT 就不一樣了,它可謂是兼顧了上面兩種架構(gòu)的優(yōu)點,能夠在時間和空間維度上壓縮視頻,并且在時間上保持自回歸的同時,還可以自回歸生成任意長度的視頻。

C-ViViT 可以使模型生成任意長度的視頻,那最終視頻的邏輯性又是怎么保證的呢?

這就得靠 Phenaki 另外一個比較重要的部分:雙向 Transformer。

在這其中,為節(jié)省時間,采樣步驟是固定的,并且在處理文本提示的過程中,能同時預(yù)測不同的視頻 token。

這樣一來,結(jié)合前面提到的,C-ViViT 能夠在時間和空間維度上壓縮視頻,壓縮出來的 token 是具有時間邏輯性的。

也就是說,在這些 token 上經(jīng)過掩碼訓(xùn)練的 Transformer 也具備時間邏輯性,最終生成的視頻在連貫性自然也就有了保證。

如果還想了解更多關(guān)于 Phenaki 的東西,可以戳這里查看。

Phenaki:

https://phenaki.github.io

參考鏈接:

  • [1] https://phenaki.video/

  • [2] https://phenaki.research.google/

  • [3] https://twitter.com/AiBreakfast/status/1614647018554822658

  • [4] https://twitter.com/EvanKirstel/status/1614676882758275072

本文來自微信公眾號:量子位 (ID:QbitAI),作者:金磊 Pine

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI視頻谷歌

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知