家人們,現在做個影視級視頻,也就是一句話的事了!
例如只需簡單輸入“叢林(Jungle)”,大片鏡頭便可立刻呈現:
而且圍繞著“叢林”變換幾個搭配的詞語,比如“河流”、“瀑布”、“黃昏”、“白天”等,這個 AI 也能秒懂你的意思。
還有下面這些自然美景、宇宙奇觀、微觀細胞等高清視頻,統統只需一句話。
這就是 Stable Diffusion 和《瞬息全宇宙》背后技術公司 Runway,出品的 AI 視頻編輯工具 Gen2。
而且就在最近,一個好消息突然襲來 ——Gen2 可以免費試用了!
這可把網友們開心壞了,紛紛開始嘗鮮了起來。
體驗 Gen2 實錄
如此好玩的技術,我們當然也要親手體驗上一番。
例如我們給 Gen2 投喂了一句中文:
上海外灘夜景,影視風格。
一個航拍視角的視頻片段便立即被做了出來。
如果想讓視頻的風格變換一下,也可以上傳一張圖片,例如我們用的是一張賽博朋克風格的城市照片。
那么 Gen2 就會把你輸出的提示詞和照片風格做一個“合體”:
目前 Runway 官網可免費體驗 Gen2 的功能是文生視頻(Text to Video),但 Gen1 也開放了視頻生視頻(Video to Video)的功能。
例如一個國外小哥可能受《瞬息全宇宙》的啟發(fā),憑借 Gen1 也玩了一把更刺激的穿越。
他先是在家錄了一段打響指的視頻,然后“啪的一下”,瞬間讓自己步入歐洲皇室貴族的“片場”:
然后…… 就連物種、性別,都可以隨隨便便地切換:
最后,再經歷幾次不同時空、人種的穿越之后,小哥一個響指又回到了自己的家里:
在看完 Gen2 生成的這波“大秀”之后,網友們不淡定了,直呼:
娛樂圈要被生成式 AI 重新定義了。
PC、手機都能玩
網頁端和移動端(僅限 iOS 系統)現在均可正式開始體驗。
以網頁端為例,進入 Runway 官方主頁(文末鏈接 [1]),點擊上方“TRY NOW”并注冊賬號,就可以進入下面的界面:
點擊右方的“Introducing Gen2”,我們就可以正式開玩了。
首先,輸入提示詞,最多 320 個字符,然后在左邊的設置菜單里進行一些基礎配置(包括種子參數、插值等),點擊“Generate”。
(當然,你也可以為視頻提供一張參考圖像,點擊右邊的圖像圖標即可。)
不到 1 分鐘的功夫,視頻就出來了。
點擊下方播放按鈕即可查看效果,視頻可以直接保存到本地,也可以只保存在你的賬戶中。
當然,如果你不滿意,還能在下方的提示詞框中繼續(xù)修改。
需要注意的是,免費試用的額度為 105 秒(右上角顯示剩余額度),每個視頻為 4 秒,也就是大約可免費生成 26 個 Gen2 視頻。
額度用完或者你想體驗去水印、提升分辨率等額外功能,就需要買會員,標準版為 15 美元一個月,Pro 版 35 美元,年付更便宜一些。
如果你想要生成效果更好,可以多使用“in the style of xxx”的形式,比如:
A palm tree on a tropical beach in the style of professional cinematography, shallow depth of field, feature film.(如下圖)
A palm tree on a tropical beach in the style of 2D animation, cartoon, hand drawn animation.
或者直接去它的靈感庫,選擇一個你喜歡的視頻然后點擊“try it”即可查看它的提示詞是怎么寫的,然后在上面進行編輯或模仿就好了:
還有網友表示,使用“cinematic shot of”開頭,也能讓你的視頻更具動感(解決了很多人試出來的視頻不怎么動的問題)。
什么來頭?
Gen2 于今年 3 月 20 日正式發(fā)布,經歷了兩個多月的內測,現在終于正式上線。
它的前代 Gen1 只比它早了一個多月(2 月發(fā)布),所以說迭代速度相當快。
作為一個基于擴散的生成模型,Gen1 通過在預訓練圖像模型中引入時間層,并在圖像和視頻數據上進行聯合訓練,完成了潛擴散模型到視頻生成領域的擴展。
其中也包括使用一種全新的引導方法完成了對生成結果時間一致性的精確控制。
其架構如圖所示:
在訓練階段,先用固定編碼器將輸入視頻 x 編碼為 z0,并擴散為 zt。
然后對 MiDaS 獲得的深度圖進行編碼,提取出結構表示 s;再用 CLIP 對其中一個幀進行編碼來獲取內容表示 c。
接著,在 s 的幫助下,模型學習反轉潛空間中的擴散過程(其中 s 與 c 以及通過交叉注意塊生成的 c 相連)。
在推理階段,模型以相同的方式提供輸入視頻的結構 s。
為了通過文本生成內容,作者還通過一個 prior 將 CLIP 文本嵌入轉換為圖像嵌入。
最終,Gen1 可以生成細粒度可控的視頻,也能對一些參考圖像進行定制。
不過,一開始對公眾發(fā)布的 Gen1 只能對已有視頻進行編輯,Gen2 才直接完成了文生視頻的“蛻變”。
并且一口氣帶來了另外 7 大功能,包括文本 + 參考圖像生視頻、靜態(tài)圖片轉視頻、視頻風格遷移等等。
這樣的 Gen2,也在內測階段就被網友稱贊“視頻界的 Midjourney”。
而根據官方的調研數據,Gen2 確實更受用戶歡迎:用戶得分比 Stable Diffusion 1.5 要高 73.53%,比 Text2Live 則高上了 88.24%。
如今正式上線以后,果然迅速迎來一大波體驗群眾,有人表示:
上一次體會到這么激動的感覺,還是用 AI 生成圖像的時候。
那么,不知道這波,參與開發(fā)了 SD 的 Runway,能否再帶著 Gen2 創(chuàng)造生成式 AI 領域的下一大熱趨勢 ——
如果答案是肯定的,還需要多久、還要解決哪些問題?
就且拭目以待。
參考鏈接:
[1]https://runwayml.com/
[2]]https://research.runwayml.com/gen2
[3]https://twitter.com/SteveMills/status/1666799229996785666
[4]https://twitter.com/runwayml/status/1666429706932043776
[5]https://www.youtube.com/watch?v=dq8GZeDEqH8
本文來自微信公眾號:量子位 (ID:QbitAI),作者:金磊 豐色
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。