設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

外媒搶先實(shí)測(cè) Sora:不懂物理 / 動(dòng)物變形 / 速度巨慢,但初創(chuàng)公司已經(jīng)創(chuàng)死一片

新智元 2024/2/28 11:24:49 責(zé)編:清源

【新智元導(dǎo)讀】Sora 顛覆影視業(yè),現(xiàn)在來(lái)看還遠(yuǎn)。Bloomberg 記者親自試用后發(fā)現(xiàn),Sora 生成的視頻還是翻車(chē)嚴(yán)重。而且,它的速度太太太太慢了!不過(guò)盡管如此,OpenAI 已經(jīng)創(chuàng)死了一片初創(chuàng)公司。

雖然功能還未正式開(kāi)放,但已經(jīng)有外媒搶先上手體驗(yàn)了!

結(jié)果就是 ——Sora 翻車(chē)了!

最近,就在外界對(duì) Sora 一片贊譽(yù)聲之時(shí),一些冷靜的外媒,也開(kāi)始發(fā)出了質(zhì)疑的聲音。

Bloomberg 認(rèn)為:Sora 的確令人印象深刻,但它尚未準(zhǔn)備好迎接未來(lái)的黃金時(shí)段。

原因就在于,Sora 現(xiàn)在對(duì)于身體部位的理解和物理學(xué)的復(fù)雜原理還無(wú)法完全掌握,并且,它處理請(qǐng)求的時(shí)間,實(shí)在是太長(zhǎng)了!

用作者 Peebles 的話來(lái)說(shuō)就是,Sora 的速度太慢了,你可以在等待視頻生成時(shí)去吃點(diǎn)零食。

Sora 翻車(chē):鸚鵡猴子傻傻分不清,還巨慢

因?yàn)?Sora 至今仍在紅隊(duì)測(cè)試中,還無(wú)法直接訪問(wèn)。只有被選中的藝術(shù)家、電影制作人和設(shè)計(jì)師才能獲得訪問(wèn)系統(tǒng)的權(quán)限。

為了一睹傳說(shuō)中視頻王炸模型的真正實(shí)力,Bloomberg 的記者給 OpenAI 的研究者發(fā)去了這樣一段 prompt——

「An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.」

大意是:一只絢麗多彩的鸚鵡在哥斯達(dá)黎加的繁茂叢林中翱翔,最終停落在一枝樹(shù)干上,與一群猴子分享一塊甘甜的水果。正值一天中最為美妙的黃金時(shí)段,陽(yáng)光透過(guò)樹(shù)冠,照在葉片和猴子潔白的毛發(fā)上,閃爍著金色的光芒。

Sora 生成的視頻是這樣的。

看上去還不錯(cuò),對(duì)不對(duì)?

然而如果仔細(xì)看,就會(huì)發(fā)現(xiàn)不少問(wèn)題。

比如,鸚鵡的翅膀在飛過(guò)猴子時(shí)會(huì)發(fā)生扭曲。

prompt 里只要求一只鸚鵡,Sora 卻生成了好幾只。

此外,水果本身,以及上面變換莫測(cè)的爪子,都透出一股詭異的氣息……

最好笑的是,不僅其中一只鸚鵡像是「掛了」似的脖子突然一歪,而且旁邊的猴子也秒變「不明生物」長(zhǎng)出了一條鸚鵡尾巴。

對(duì)此,Sora 作者、OpenAI 科學(xué)家 Bill Peebles 是這樣解釋的:「的確,現(xiàn)在 Sora 在某個(gè)片段的不同階段會(huì)出現(xiàn)一些奇怪的動(dòng)作。但是,Sora 能夠?qū)@種復(fù)雜程度的場(chǎng)景進(jìn)行建模,已經(jīng)表明了它的視頻生成能力有了質(zhì)的飛躍?!?/p>

Sora 什么時(shí)候來(lái)?不急

具體哪一天能用上 Sora 呢,我們已知的是,至少目前還遙遙無(wú)期。

OpenAI 發(fā)言人 Natalie Summers 表示,OpenAI 沒(méi)有設(shè)定發(fā)布 Sora 的時(shí)間表,因?yàn)橄M芙档退瓦x舉相關(guān)的安全風(fēng)險(xiǎn)。

畢竟,AI Deepfake 已經(jīng)多次有黑名單記錄,如果正值此時(shí)發(fā)布新的 AI 視頻工具,會(huì)讓 OpenAI 顯得很可疑。

且不管安全問(wèn)題,Sora 在準(zhǔn)備好進(jìn)入黃金時(shí)段之前,仍然有很長(zhǎng)的路要走。

OpenAI 自己也在技術(shù)報(bào)告中承認(rèn),Sora 對(duì)身體部位的雜散問(wèn)題和對(duì)物理學(xué)的混合理解,仍有很大的進(jìn)步空間。

當(dāng)然,這個(gè)問(wèn)題也不是只有 Sora 才會(huì)遇到。它是 Runway、Pika 等 AI 視頻所共同面臨的問(wèn)題。而且,對(duì)于每個(gè)視頻,Sora 都需要消耗更多的算力,也需要等待更長(zhǎng)的時(shí)間。

▲ Runway 生成的威爾史密斯吃面

這個(gè)時(shí)間,可不是像 DALL-E 3 生成單個(gè)圖像那么簡(jiǎn)單。

Sora 處理每個(gè)請(qǐng)求的時(shí)間究竟是多長(zhǎng)呢?

OpenAI 沒(méi)有明確回復(fù),但 Peebles 表示,它「絕對(duì)不是即時(shí)的」,因?yàn)椤改憧梢栽诘却P瓦\(yùn)行的時(shí)候,去吃點(diǎn)零食。」

這個(gè)過(guò)程可能非常漫長(zhǎng),因?yàn)?Bloomberg 記者給了 OpenAI 四個(gè) prompt,但他們只給了兩個(gè)視頻,另外兩個(gè)實(shí)在是沒(méi)時(shí)間做了。

商標(biāo)注冊(cè)信息,暴露 Sora 真實(shí)能力:難怪會(huì)狙擊 Gemini 1.5 Pro

就在最近,OpenAI 申請(qǐng)的 Sora 商標(biāo)注冊(cè)描述也曝光了!

其中對(duì) Sora 能力的介紹如下 ——

生成視頻和圖像;

基于自然語(yǔ)言提示、視覺(jué)提示、文本、語(yǔ)音創(chuàng)建、生成和編輯視頻和圖像;

視頻和圖像識(shí)別、處理、分析、理解和生成;

編輯、組織、修改、傳輸、上傳、下載和分享視頻、圖像和音視頻材料;

創(chuàng)建和生成文本到視頻以及文本到圖像的內(nèi)容。

文件曝光后,讓 AI 研究者們更吃驚了!

所以,Sora 不僅可以生成視頻,還對(duì)視頻和圖像有理解能力?

谷歌的 Gemini 1.5 Pro 可以分析 1 小時(shí)的視頻,而 Sora 也具有類似能力,真的可以說(shuō)是降維打擊了。

大家后知后覺(jué)地明白過(guò)來(lái):Gemini 1.5 Pro 發(fā)布后不久,OpenAI 就拿出 Sora 來(lái)狙擊,看來(lái)還真是不無(wú)道理。

現(xiàn)在從 OpenAI 的模型推出計(jì)劃來(lái)看,Sora 目前應(yīng)該是處于「評(píng)估和迭代開(kāi)發(fā)」階段。

下一步將是分階段推出階段,包括私人測(cè)試版、測(cè)試用例和進(jìn)一步的安全測(cè)試。

搓搓手,目測(cè)一年內(nèi)應(yīng)該能等到。

Sora 新演示來(lái)了!

與此同時(shí),TikTok 上,OpenAI 的賬戶一夜爆火,幾天內(nèi)漲粉 18 萬(wàn),收獲接近 100 萬(wàn)贊。

而最近,Sora 的 TikTok 賬號(hào)上還在不斷放出新視頻。

比如這個(gè)一廚房的廚師和廚具的視頻,就是 Sora 根據(jù) DALL-E 3 生成的圖像生成的視頻。

首先,DALL-E 3 生成了這樣一幅靜圖。

然后,Sora 根據(jù)這幅靜圖,生成了下面這段視頻。

在評(píng)論區(qū),有人留言表示,想看看 Sora 創(chuàng)作出從來(lái)不存在的生物。

現(xiàn)在,Sora 也來(lái)交卷了。根據(jù) Prompt「創(chuàng)造一個(gè)從未存在過(guò)的逼真動(dòng)物,自然紀(jì)錄片風(fēng)格」,它生成的視頻是這樣的 ——

▲ 來(lái)源:小互

乍一看怎么像是帕魯們來(lái)到 3 次元。(手動(dòng)狗頭)

OpenAI 創(chuàng)死所有初創(chuàng)公司,投資人大喜:還好我沒(méi)投

最近,所有 VC 的會(huì)上都在談 Sora。

OpenAI 的每一次技術(shù)突破,都拓展了資本圈對(duì) AI 的想象空間。代價(jià)就是,大多創(chuàng)業(yè)公司的路,也被堵死了。

半個(gè)月前,Sam Altman 發(fā)布 AI 技術(shù) Sora 制作的超逼真電影視頻時(shí),所有人都意識(shí)到,無(wú)論是科技行業(yè)還是好萊塢,都敲響了警鐘。

外媒 The Information 發(fā)現(xiàn),自己長(zhǎng)期跟進(jìn)的至少七家開(kāi)發(fā) AI 視頻生成器的公司,已經(jīng)感到了恐懼。

同時(shí)感到恐懼的,還有給他們投了超過(guò) 5.5 億美元的投資人。

在 Sora 視頻在全網(wǎng)引發(fā)狂潮后,一位投資人私下表示:太幸運(yùn)了,最近一家熱門(mén) AI 視頻初創(chuàng)公司的一輪融資,還好自己錯(cuò)過(guò)了。

而另一位資助了 AI 視頻初創(chuàng)公司的投資人表示,讓自己感到欣慰的是,如果真的發(fā)生了這種情況,或許這家初創(chuàng)公司強(qiáng)大的領(lǐng)導(dǎo)者,會(huì)使其成為一個(gè)很好的收購(gòu)目標(biāo)。

Sora 的視頻亮點(diǎn),就在于它在模擬現(xiàn)實(shí)世界的物理原理,盡管并不完美。

但是 AI 視頻如此神速的進(jìn)步速度令人震驚,也讓人不得不相信:它很快就能制作出成熟的電影了。

風(fēng)險(xiǎn)資本家馬特?圖爾克在 X 上的一篇帖子中半開(kāi)玩笑地說(shuō),或許到 2025 年,我們就可以讓 Sora 拍一集今晚就要播出的《毒梟》,要求布拉德?皮特、野獸先生和特拉維斯?凱爾斯主演。

全世界看向 Runway

Altman 扔出 Sora 這個(gè)王炸后,所有目光都集中在了 Runway 上。

此前,在 AI 視頻領(lǐng)域,Runway 可以算得上是領(lǐng)頭羊之一。

它的產(chǎn)品中添加了 AI 功能,甚至包括從頭開(kāi)始創(chuàng)建視頻拆條的能力。

Runway 的 AI 視頻生成器,使用了 Runway 自己開(kāi)發(fā)的潛在擴(kuò)散模型,因此市場(chǎng)認(rèn)為這家小型初創(chuàng)公司有可能會(huì)迎頭趕上,也不無(wú)道理。

當(dāng)然,現(xiàn)階段的 Runway 視頻,還無(wú)法和 Sora 對(duì)打。

因?yàn)榉直媛侍?,它們?huì)不由得讓人產(chǎn)生恐怖谷效應(yīng)。

另一處鮮明的對(duì)比是,Runway 用戶一次最多只能生成 16 秒的視頻,而 Sora 卻能做出一分鐘的長(zhǎng)視頻。

Runway CEO Cristóbal Valenzuela 表示:視頻模型代表了創(chuàng)意產(chǎn)業(yè)未來(lái)的一些最重要的技術(shù),所以思考這個(gè)問(wèn)題的人越多越好…… 還有很長(zhǎng)的路要走。

其他競(jìng)爭(zhēng)對(duì)手的發(fā)展,也不容小覷,比如 Meta、Stable Diffusion、Pika 等,最近都推出了類似的 AI 視頻產(chǎn)品。

以 AI 生成圖像聞名的 AI 初創(chuàng)公司 Midjourney,現(xiàn)在也在準(zhǔn)備自己的視頻產(chǎn)品。

大家共同的問(wèn)題:如何盈利?

AI 視頻,會(huì)成為搖錢(qián)樹(shù)嗎?一個(gè)大問(wèn)題是,AI 視頻是否會(huì)像 AI 生圖一樣發(fā)展呢?

或許它會(huì)是一項(xiàng)令人印象深刻的壯舉,但不一定是搖錢(qián)樹(shù)。只有 Midjourney 是例外,它獲得了超過(guò) 2 億美元的收入。

但其他的 AI 圖像生成器,甚至包括 OpenAI 的 DALL-E 3,其實(shí)并沒(méi)有賺多少錢(qián)。

Meta 雖然擁有蓬勃發(fā)展的廣告業(yè)務(wù),但并沒(méi)有試圖這樣做。

Sora 的其他競(jìng)爭(zhēng)對(duì)手,Pika、Stable Diffusion 等等,也都沒(méi)有這樣做。

行業(yè)巨震,初創(chuàng)公司何去何從

對(duì)于 AI 視頻初創(chuàng)公司來(lái)說(shuō),好消息是,OpenAI 不太可能讓人免費(fèi)使用 Sora。部分原因是,運(yùn)營(yíng)這項(xiàng)技術(shù)的成本很高。

這也就意味著,其他公司可以對(duì)自己的產(chǎn)品收費(fèi)?,F(xiàn)在,它們還有機(jī)會(huì)!因?yàn)?Sora 在幾個(gè)月內(nèi),可能都不會(huì)開(kāi)放使用。還有一個(gè)未解之謎,Sora 的訓(xùn)練數(shù)據(jù)究竟是來(lái)自哪里的呢?

有一些行業(yè)觀察人士(如 Meta 的 AI 領(lǐng)導(dǎo)者之一 Soumith Chintala)推測(cè),其中就有游戲引擎生成的合成數(shù)據(jù)。

游戲引擎可以渲染視覺(jué)效果,以前這個(gè)功能主要用于開(kāi)發(fā)視頻游戲。

現(xiàn)在,如果 OpenAI 能使用合成數(shù)據(jù)的話,這可能就意味著 YouTube、好萊塢電影庫(kù)之類的專有數(shù)據(jù)集,對(duì)于開(kāi)發(fā) AI 視頻模型的重要性不如大多數(shù)研究者此前認(rèn)為的那么重要。

這也就意味著:如果 AI 開(kāi)發(fā)者能生成良好的合成數(shù)據(jù),也就可以賺錢(qián)了。往遠(yuǎn)了看,如今 AI 已經(jīng)把人類的文本都學(xué)完了,下一步就是視頻。如果視頻素材也學(xué)完了,該怎么辦?

有人說(shuō),那時(shí)就可以給大模型裝上攝像頭,因?yàn)槿祟愂澜缑刻煨枰獙W(xué)習(xí)的東西可太多了。

Sam Altman 張口要 7 萬(wàn)億美元,或許是 OpenAI 真的研究出了了不得的東西,比如即將成形的 AGI。算力、數(shù)據(jù),手握這些資源的,就會(huì)得到第一個(gè) AGI。

參考資料:

https://the-decoder.com/openais-sora-is-slow-enough-to-grab-a-snack-while-it-generates-your-video/

https://www.bloomberg.com/news/newsletters/2024-02-22/openai-s-sora-video-generator-is-impressive-but-not-ready-for-prime-time

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,Sora

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知