首頁 > 智能時代>人工智能

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

量子位 2024/2/17 17:31:58 責(zé)編：清源

評論：

就說 Sora 有多火吧。生成的視頻上線一個、瘋傳一個。

作者小哥新上傳的效果，很快引來圍觀。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

失敗案例都讓人看得上癮。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

將近 1 萬人點(diǎn)贊。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

學(xué)術(shù)圈更炸開鍋了，各路大佬紛紛開麥。

紐約大學(xué)助理教授謝賽寧（ResNeXt 的一作）直言，Sora 將改寫整個視頻生成領(lǐng)域。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

英偉達(dá)高級研究科學(xué)家 Jim Fan 高呼，這就是視頻生成的 GPT-3 時刻??！尤其在技術(shù)報告發(fā)布后，討論變得更加有趣。因為其中諸多細(xì)節(jié)不是十分明確，所以大佬們也只能猜測。

包括“Sora 是一個數(shù)據(jù)驅(qū)動的物理引擎”、“Sora 建立在 DiT 模型之上、參數(shù)可能僅 30 億”等等。所以，Sora 為啥能如此驚艷？它對視頻生成領(lǐng)域的意義是？這不，很快就有了一些可能的答案。

視頻生成的 GPT-3 時刻

總的來說，Sora 是一個在不同時長、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型，同時采用了 Transformer 架構(gòu)，也就是一種“擴(kuò)散型 Transformer”。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

關(guān)于技術(shù)細(xì)節(jié)，官方報告簡單提了以下 6 點(diǎn)：

一是視覺數(shù)據(jù)的“創(chuàng)新轉(zhuǎn)化”。

與大語言模型中的 token 不同，Sora 采用的是“Patches（補(bǔ)片）”來統(tǒng)一不同的視覺數(shù)據(jù)表現(xiàn)形式。

如下圖所示，在具體操作中，模型先將視頻壓縮到低維潛空間中，然后將它們表示分解為時空補(bǔ)片，從而將視頻轉(zhuǎn)換為補(bǔ)片。（啊這，說了又仿佛什么都沒說）

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

二是訓(xùn)練了一個視頻壓縮網(wǎng)絡(luò)。

它可以降低視覺數(shù)據(jù)維度，輸入視頻，輸出時空上壓縮的潛表示。Sora 就在這上面完成訓(xùn)練。相應(yīng)地，OpenAI 也訓(xùn)練了一個專門的解碼器。

三是時空補(bǔ)片技術(shù)（Spacetime latent patches）。

給定一個壓縮的輸入視頻，模型提取一系列時空補(bǔ)片，充當(dāng) Transformer 的 token。正是這個基于補(bǔ)片的表示讓 Sora 能夠?qū)Σ煌直媛?、持續(xù)時間和長寬比的視頻和圖像進(jìn)行訓(xùn)練。

在推理時，模型則通過在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的補(bǔ)片來控制生成視頻的大小。

四是擴(kuò)展 Transformer 也適用于視頻生成的發(fā)現(xiàn)。

OpenAI 在這項研究中發(fā)現(xiàn)，擴(kuò)散型 Transformer 同樣能在視頻模型領(lǐng)域中完成高效擴(kuò)展。下圖展示出隨著訓(xùn)練資源的增加，樣本質(zhì)量明顯提升（固定種子和輸入條件）。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

五是視頻多樣化上的一些揭秘。

和其他模型相比，Sora 能夠 hold 住各種尺寸的視頻，包括不同分辨率、時長、寬高比等等。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

也在構(gòu)圖和布局上優(yōu)化了更多，如下圖所示，很多業(yè)內(nèi)同類型模型都會盲目裁剪輸出視頻為正方形，造成主題元素只能部分展示，但 Sora 可以捕捉完整的場景：

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

報告指出，這都要?dú)w功于 OpenAI 直接在視頻數(shù)據(jù)的原始尺寸上進(jìn)行了訓(xùn)練。

最后，是語言理解方面上的功夫。在此，OpenAI 采用了 DALL?E 3 中引入的一種重新標(biāo)注技術(shù)，將其應(yīng)用于視頻。

除了使用描述性強(qiáng)的視頻說明進(jìn)行訓(xùn)練，OpenAI 也用 GPT 來將用戶簡短的提示轉(zhuǎn)換為更長的詳細(xì)說明，然后發(fā)送給 Sora。這一系列使得 Sora 的文字理解能力也相當(dāng)給力。

關(guān)于技術(shù)的介紹報告只提了這么多，剩下的大篇幅都是圍繞 Sora 的一系列效果展示，包括文轉(zhuǎn)視頻、視頻轉(zhuǎn)視頻，以及圖片生成。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

可以看到，諸如其中的“patch”到底是怎么設(shè)計的等核心問題，文中并沒有詳細(xì)講解。有網(wǎng)友吐槽，OpenAI 果然還是這么地“Close”（狗頭）。正是如此，各路大佬和網(wǎng)友們的猜測也是五花八門。

謝賽寧分析：

1、Sora 應(yīng)該是建立在 DiT 這個擴(kuò)散 Transformer 之上的。

簡而言之，DiT 是一個帶有 Transformer 主干的擴(kuò)散模型，它 = [VAE 編碼器 + ViT + DDPM + VAE 解碼器]。

謝賽寧猜測，在這上面，Sora 應(yīng)該沒有整太多花哨的額外東西。

2、關(guān)于視頻壓縮網(wǎng)絡(luò)，Sora 可能采用的就是 VAE 架構(gòu)，區(qū)別就是經(jīng)過原始視頻數(shù)據(jù)訓(xùn)練。

而由于 VAE 是一個 ConvNet，所以 DiT 從技術(shù)上來說是一個混合模型。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

3、Sora 可能有大約 30 億個參數(shù)。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

謝賽寧認(rèn)為這個推測不算不合理，因 Sora 可能還真并不需要人們想象中的那么多 GPU 來訓(xùn)練，如果真是如此，Sora 的后期迭代也將會非?？?。

英偉達(dá) AI 科學(xué)家 Jim Fan 則認(rèn)為：

Sora 應(yīng)該是一個數(shù)據(jù)驅(qū)動的物理引擎。

Sora 是對現(xiàn)實(shí)或幻想世界的模擬，它通過一些去噪、梯度下降去學(xué)習(xí)復(fù)雜渲染、“直覺”物理、長鏡頭推理和語義基礎(chǔ)等。

比如這個效果中，提示詞是兩艘海盜船在一杯咖啡里航行廝殺的逼真特寫視頻。

Jim Fan 分析，Sora 首先要提供兩個 3D 資產(chǎn)：不同裝飾的海盜船；必須在潛在空間中解決 text-to-3D 的隱式問題；并且要兩艘船避開彼此的路線，兼顧咖啡液體的流體力學(xué)、保持真實(shí)感、帶來仿佛光追般的效果。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

有一些觀點(diǎn)認(rèn)為，Sora 只是在 2D 層面上控制像素。Jim Fan 明確反對這種說法。他覺得這就像說 GPT-4 不懂編碼，只是對字符串進(jìn)行采樣。

不過他也表示，Sora 還無法取代游戲引擎開發(fā)者，因為它對于物理的理解還遠(yuǎn)遠(yuǎn)不夠，仍然存在非常嚴(yán)重的“幻覺”。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

所以他提出 Sora 是視頻生成的 GPT-3 時刻。

回到 2020 年，GPT-3 不是一個很完美的模型，但是它有力證明了上下文學(xué)習(xí)的重要性。所以不要糾結(jié)于 GPT-3 的缺陷，多想想后面的 GPT-4。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

除此之外，還有膽大的網(wǎng)友甚至懷疑 Sora 用上了虛幻引擎 5 來創(chuàng)建部分訓(xùn)練數(shù)據(jù)。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

他甚至挨個舉例分析了好幾個視頻中的效果以此佐證猜想：

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

不過反駁他的人也不少，理由包括“人走路的鏡頭明顯還是奇怪，不可能是引擎的效果”、“YouTube 上有數(shù)十億小時的各種視頻，ue5 的用處不大吧”……

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

如此種種，暫且不論。

最后，有網(wǎng)友表示，盡管不對 OpenAI 放出更多細(xì)節(jié)抱有期待，但還是很想知道 Sora 在視頻編碼、解碼，時間插值的額外模塊等方面是不是有創(chuàng)新。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

OpenAI 估值達(dá) 800 億美元

在 Sora 引發(fā)全球關(guān)注的同時，OpenAI 的估值也再次拉高，成為全球第三高估值的科技初創(chuàng)公司。

隨著最新一要約收購?fù)瓿桑琌penAI 的估值正式達(dá)到 800 億美元，僅次于字節(jié)跳動和 SpaceX。

這筆交易由風(fēng)投公司 Thrive Capital 牽頭，外部投資者可以從一些員工手中購買股份，去年年初時 OpenAI 就完成過類似交易，使其當(dāng)時的估值達(dá)到 290 億美元。

而在 Sora 發(fā)布后，GPT-4 Turbo 也大幅降低速率限制，提高 TPM（每分鐘最大 token 數(shù)量），較上一次實(shí)現(xiàn) 2 倍提升。總裁 Brockman 還親自帶貨宣傳。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

但與此同時，OpenAI 申請注冊“GPT”商標(biāo)失敗了。理由是“GPT”太通用。

One More Thing

值得一提的是，有眼尖的網(wǎng)友發(fā)現(xiàn)，昨天 Stability AI 也發(fā)布了 SVD 1.1。

但似乎在 Sora 發(fā)布不久后火速刪博。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

有人銳評，這不是翻版汪峰么？不應(yīng)該刪，應(yīng)該返蹭個熱度。

這還玩?zhèn)€ p 啊。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

還有人感慨，Sora 一來，立馬就明白張楠為啥要聚焦剪映了。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

以及賣課大軍也聞風(fēng)而動，把商機(jī)拿捏死死的。

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

參考鏈接：

[1]https://openai.com/research/video-generation-models-as-world-simulators
[2]https://twitter.com/DrJimFan/status/1758210245799920123
[3]https://x.com/sainingxie/status/1758433676105310543?s=20
[4]https://twitter.com/charliebholtz/status/1758200919181967679
[5]https://www.reuters.com/technology/openai-valued-80-billion-after-deal-nyt-reports-2024-02-16/

本文來自微信公眾號：量子位（ID：QbitAI），作者：明敏豐色

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

爆火 Sora 參數(shù)規(guī)模僅 30 億？紐約大學(xué)謝賽寧等大佬技術(shù)分析來了

視頻生成的 GPT-3 時刻

OpenAI 估值達(dá) 800 億美元

One More Thing

相關(guān)文章