AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

新智元 2024/2/11 21:02:31 責(zé)編：問(wèn)舟

評(píng)論：

2023 年，也是 AI 視頻元年。過(guò)去一年究竟有哪些爆款應(yīng)用誕生，未來(lái)視頻生成領(lǐng)域面臨的難題還有哪些？過(guò)去一年，AI 視頻領(lǐng)域我們見證了，Gen-2、Pika 等爆款產(chǎn)品的誕生。

來(lái)自 a16z 的 Justine Moore，詳細(xì)盤點(diǎn)了人工智能視頻生成領(lǐng)域的現(xiàn)狀、不同模型比較，以及還未解決的技術(shù)挑戰(zhàn)。

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

接下來(lái)，一起看看這篇文章都講了什么？

AI 視頻生成大爆發(fā)

2023 年是 AI 視頻取得突破的一年。不過(guò)，今年過(guò)去了一個(gè)月，暫未有公開的文本到視頻的模型。

短短 12 個(gè)月，數(shù)十種視頻生成產(chǎn)品受到了全球數(shù)以萬(wàn)計(jì)的用戶的青睞。

不過(guò)，這些 AI 視頻生成工具仍相對(duì)有限，多數(shù)只能生成 3-4 秒的視頻，同時(shí)質(zhì)量往往參差不齊，角色一致性等問(wèn)題尚未解決。

也就是說(shuō)，我們還遠(yuǎn)不能制作出一個(gè)只有文字提示，甚至多個(gè)提示的皮克斯級(jí)別的短片。

然而，我們?cè)谶^(guò)去一年中在視頻生成方面取得的進(jìn)步表明，世界正處于一場(chǎng)大規(guī)模變革的早期階段 —— 與我們?cè)趫D像生成方面看到的情況類似。

我們看到，文本到視頻的模型在不斷改進(jìn)，圖像到視頻，以及視頻到視頻等分支也在蓬勃發(fā)展。

為了幫助了解這一創(chuàng)新的爆炸式增長(zhǎng)，a16z 追蹤了到目前為止最需要關(guān)注的公司，以及該領(lǐng)域仍然存在的潛在問(wèn)題。

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

今天，你可以在哪里生成 AI 視頻？

21 個(gè)視頻生成產(chǎn)品

今年到目前為止，a16z 已經(jīng)跟蹤了 21 種公開產(chǎn)品。

雖然你可能聽說(shuō)過(guò) Runway、Pika、Genmo 和 Stable Video Diffusion，但還有許多其他的東西需要探索。

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

這些產(chǎn)品大多來(lái)自初創(chuàng)公司，其中許多都是從 Discord bots，有以下幾個(gè)優(yōu)勢(shì)：

- 不需要構(gòu)建自己面向消費(fèi)者的界面，只需專注于模型質(zhì)量

- 可以利用 Discord 每月 1.5 億活躍用戶的基礎(chǔ)進(jìn)行分發(fā)

- 公共渠道為新用戶提供了一種簡(jiǎn)便的方式，讓他們獲得創(chuàng)作靈感（通過(guò)查看他人的創(chuàng)作）

然而，隨著技術(shù)成熟，我們開始看到越來(lái)越多的 AI 視頻產(chǎn)品建立自己的網(wǎng)站，甚至是 App。

隨著 Discord 提供了一個(gè)很好的平臺(tái)，但在純生成之上添加的工作流而言，卻是有限的，并且團(tuán)隊(duì)對(duì)消費(fèi)者體驗(yàn)的控制很少。

值得注意的是，還有很大一部分人不使用 Discord，因其覺(jué)得界面混亂讓人困惑。

研究和技術(shù)

谷歌、Meta 和其他公司在哪里？

在公開的產(chǎn)品列表中，他們顯然沒(méi)有出現(xiàn)--盡管你可能已經(jīng)看到了他們發(fā)布的關(guān)于 Emu Video、VideoPoet 和 Lumiere 等模型的帖子。

到目前為止，大型科技公司基本上都不選擇公開自家的 AI 視頻產(chǎn)品。

取而代之的是，他們發(fā)表了各種相關(guān)的視頻生成的論文，而沒(méi)有選擇視頻演示。

比如，谷歌文本生成視頻的模型 Lumiere

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

這些公司有著巨大的分銷優(yōu)勢(shì)，其產(chǎn)品擁有數(shù)十億用戶。

那么，他們?yōu)槭裁床环艞壈l(fā)布視頻模型，而在這一新興類別市場(chǎng)中奪取巨大份額。

最主要的原因還是，法律、安全和版權(quán)方面的擔(dān)憂，往往使這些大公司很難將研究轉(zhuǎn)化為產(chǎn)品，并推遲推出。如此一來(lái)，讓新來(lái)者有機(jī)會(huì)獲得先發(fā)優(yōu)勢(shì)。

AI 視頻的下一步是什么？

如果你曾使用過(guò)這些產(chǎn)品，便知道在 AI 視頻進(jìn)入主流產(chǎn)品之前，仍然有很大的改進(jìn)空間。

有時(shí)會(huì)發(fā)現(xiàn)，AI 視頻工具可以將提示內(nèi)容生成視頻的「神奇時(shí)刻」，但這種情況相對(duì)較少見。更常見的情況是，你需要點(diǎn)擊幾次重新生成，然后裁剪或編輯輸出，才能獲得專業(yè)級(jí)別的片段。

這一領(lǐng)域的大多數(shù)公司都專注于解決一些核心的問(wèn)題：

- 控制性：你能否同時(shí)控制場(chǎng)景中發(fā)生的事情，（比如，提示「有人向前走」，動(dòng)作是否如描述的那樣？）關(guān)于后一點(diǎn)，許多產(chǎn)品都增加了一些功能，允許你對(duì)鏡頭 zoom 或 pan，甚至添加特效。

- 「動(dòng)作是否如描述的那樣」一直較難解決：這涉及到底層模型的質(zhì)量問(wèn)題（模型是否理解提示的含義并能按要求生成），盡管一些公司正在努力在生成前提供更多的用戶控制。

比如，Runway 的 motion brush 就是一個(gè)很好的例子，它允許用戶高粱圖像的特定區(qū)域并確定其運(yùn)動(dòng)方式。

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

時(shí)間一致性：如何讓角色、對(duì)象和背景在幀之間保持一致，而不會(huì)變形為其他東西或扭曲？

在所有公開提供的模型中，這是一個(gè)非常常見的問(wèn)題。

如果你今天看到一段時(shí)間連貫的視頻，時(shí)長(zhǎng)超過(guò)幾秒，很可能是視頻到視頻，通過(guò)拍攝一段視頻，然后用 AnimateDiff prompt travel 之類的工具來(lái)改變風(fēng)格。

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

- 長(zhǎng)度 —— 制作長(zhǎng)時(shí)間的短片與時(shí)間連貫性高度相關(guān)。

許多公司會(huì)限制生成視頻的長(zhǎng)度，因?yàn)樗麄儾荒艽_保幾分鐘后依然視頻保持一致性。

如果當(dāng)你看到一個(gè)超長(zhǎng)的 AI 視頻，要知道它們是由一堆短片段組成的。

尚未解決的問(wèn)題

視頻的 ChatGPT 時(shí)刻什么時(shí)候到來(lái)？

其實(shí)我們還有很長(zhǎng)的路要走，需要回答以下幾個(gè)問(wèn)題：

1 當(dāng)前的擴(kuò)散架構(gòu)是否適用于視頻？

今天的視頻模型是基于擴(kuò)散模型搭建的：它們基本原理是生成幀，并試圖在它們之間創(chuàng)建時(shí)間一致的動(dòng)畫（有多種策略可以做到這一點(diǎn)）。

他們對(duì) 3D 空間和對(duì)象應(yīng)該如何交互沒(méi)有內(nèi)在的理解，這解釋了 warping / morphing。

2 優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)從何而來(lái)？

與其他模態(tài)模型相比，訓(xùn)練視頻模型更難，這主要是因?yàn)橐曨l模型沒(méi)有那么多高質(zhì)量的訓(xùn)練數(shù)據(jù)可供學(xué)習(xí)。語(yǔ)言模型通常在公共數(shù)據(jù)集（如 Common Crawl）上進(jìn)行訓(xùn)練，而圖像模型則在 LAION 和 ImageNet 等標(biāo)記數(shù)據(jù)集（文本-圖像對(duì)）上進(jìn)行訓(xùn)練。

視頻數(shù)據(jù)更難獲得。雖然在 YouTube 和 TikTok 等平臺(tái)上不乏公開可訪問(wèn)的視頻，但這些視頻沒(méi)有標(biāo)簽，也不夠多樣化。

3 這些用例將如何在平臺(tái) / 模型之間進(jìn)行細(xì)分？

我們?cè)趲缀趺恳环N內(nèi)容模態(tài)中看到的是，一種模型并不是對(duì)所有用例都「取勝」的。例如，MidTrik、Idegraph 和 Dall-E 都有不同的風(fēng)格，并擅長(zhǎng)生成不同類型的圖像。

如果你測(cè)試一下今天的文本到視頻和圖像到視頻模式，就會(huì)發(fā)現(xiàn)它們擅長(zhǎng)不同的風(fēng)格、運(yùn)動(dòng)類型和場(chǎng)景構(gòu)成。

提示：Snow falling on a city street, photorealistic

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

Genmo

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

Runway

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

Stable Video Diffusion

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

Pika Labs

誰(shuí)將主導(dǎo)視頻制作的工作流程？

而在許多產(chǎn)品之間，來(lái)回是沒(méi)有意義的。

除了純粹的視頻生成，制作好的剪輯或電影通常需要編輯，特別是在當(dāng)前的范例中，許多創(chuàng)作者正在使用視頻模型來(lái)制作在另一個(gè)平臺(tái)上創(chuàng)建的照片的動(dòng)畫。

從 Midjourney 的圖像開始，在 Runway 或 Pika 上制作動(dòng)畫，然后在 Topz 上進(jìn)行升級(jí)的視頻并不少見。

然后，創(chuàng)作者將視頻帶到 CapCut 或 Kapwing 等編輯平臺(tái)，并添加配樂(lè)和畫外音，通常是在 Suno 和 ElevenLabs 等其他產(chǎn)品上生成的。

參考資料：

https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 視頻年大爆發(fā)：Gen-2 / Pika 成時(shí)代爆款，2023 年 AI 視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

AI 視頻生成大爆發(fā)

21 個(gè)視頻生成產(chǎn)品

研究和技術(shù)

AI 視頻的下一步是什么？

尚未解決的問(wèn)題

相關(guān)文章

AI 視頻的下一步是什么？