Sora 使用中的真相：進(jìn)步令人難以置信，但離不開大量人工

極客公園 2024/5/12 20:53:08 責(zé)編：夢澤

評論：

Sora 的第一批使用者，詳細(xì)講述了自己使用其生成完整視頻的制作過程。

作者 | 連冉

編輯 | 鄭玄

2 月初，OpenAI 發(fā)布的 Sora 驚艷了全世界，它在文生視頻上的革命性突破，一度被視為吹向好萊塢的一場大風(fēng)暴。

Sora 是一種擴(kuò)散模型，與以往的 AI 視頻生成器相比，Sora 能夠依據(jù)提示詞生成長達(dá)一分鐘的視頻內(nèi)容，保持視覺質(zhì)量和一致性，并且實現(xiàn)鏡頭的切換和構(gòu)圖調(diào)整，它還能使視頻與背景相關(guān)的主題細(xì)節(jié)準(zhǔn)確符合，生成的視頻更加逼真，仿佛是現(xiàn)實世界的延伸。

當(dāng)時，OpenAI 還發(fā)布了技術(shù)說明，表明它未來可以將生成的視頻延長或無縫混合兩個視頻。

3 月起，Sora 對一些藝術(shù)家開放了使用權(quán)限，月末，OpenAI 在官網(wǎng)發(fā)布了幾位藝術(shù)家使用 Sora 生成的超現(xiàn)實視頻作品。近日，這些作品之一《氣球人》背后的藝術(shù)家團(tuán)隊 Shy Kids 全揭秘了使用 Sora 的制作過程。

整體看下來，真正投入到影視制作中的 Sora 并沒有當(dāng)初那么驚艷，但它已經(jīng)足夠令人震撼 —— 能讓一個僅有三人的團(tuán)隊，在大約 1.5 至 2 周的時間內(nèi)便制作出了一部精彩短片。

在該團(tuán)隊看來，當(dāng)前形態(tài)的 Sora 在特定的圖像生成方面取得了令人難以置信的進(jìn)步；但對于相對復(fù)雜的項目，可能還需要一段時間的進(jìn)化才能滿足導(dǎo)演的具體需求。除了 Sora 的使用，這部《Air Head》依然使用了大量的編輯和人為指導(dǎo)才制作完成。團(tuán)隊表示，「將 Sora 融入創(chuàng)作流程是一種很真實的工作方式，但如果不這么干，好像也沒什么關(guān)系。」

01、以下為 fxguide 與 Shy Kids 就 Sora 目前的工作原理進(jìn)行討論的內(nèi)容整理：

作為獲得了 Sora 的有限訪問權(quán)限的制作團(tuán)隊之一，Shy Kids 團(tuán)隊制作了 Sora 短片《Air Head》。Shy Kids 是一家加拿大制作公司，以其多樣化和創(chuàng)新的媒體制作方法而聞名。

Sora 目前正在開發(fā)中，并通過像 Shy Kids 這樣的團(tuán)隊的反饋積極改進(jìn)。重要的是要認(rèn)識到：Sora 尚處于非常早期的發(fā)展時期，幾乎可以稱之為前阿爾法階段。

Shy Kids 中負(fù)責(zé)后期制作的帕特里克評論道，使用 Sora 是很有趣的過程，Sora 是一個非常強(qiáng)大的工具，「我們已經(jīng)在夢想著它可以如何融入我們現(xiàn)有的流程。但我認(rèn)為對于任何生成性 AI 工具來說；控制力仍然是最令人向往的，也是目前最難捉摸的東西?！?/p>

用戶界面和交互：為提升一致性，僅支持文本輸入

Sora 的用戶界面設(shè)計簡潔，它允許藝術(shù)家通過輸入文本提示來啟動視頻片段的生成過程。

藝術(shù)家輸入想要的場景描述后，OpenAI 的 ChatGPT 技術(shù)會將其轉(zhuǎn)換成更長的字符串，這一步驟是觸發(fā) Sora 生成視頻片段的關(guān)鍵。

目前，Sora 僅支持文本輸入，尚未整合多模態(tài)輸入方式，也就是說，除了文本描述外，用戶無法通過其他形式如圖像或聲音來提供輸入。

這種設(shè)計的重要性在于，盡管 Sora 在保持視頻鏡頭內(nèi)對象的一致性方面做得非常出色，但系統(tǒng)目前還無法確保第一個鏡頭中的內(nèi)容與隨后的鏡頭完全匹配。

換句話說，即使是使用相同的文本提示，Sora 在不同時間生成的視頻片段也可能存在差異。為了盡可能保持一致性，用戶需要在文本提示中盡可能詳細(xì)地描述場景，包括角色的服裝和道具的類型等。然而，即便如此，Sora 在鏡頭之間的一致性控制方面仍然存在局限，因為它尚未具備完整的功能集來實現(xiàn)完全的控制。

「我們能做的最接近的事情就是在我們的提示中加入更詳細(xì)地描述，」帕特里克解釋道?！附忉尳巧姆b，以及氣球的類型，是我們實現(xiàn)一致性的方式，因為目前還沒有完整的功能集來完全控制鏡頭到鏡頭的一致性?！?/p>

Sora 生成的每個獨(dú)立片段，就其所代表的技術(shù)而言，都是令人驚嘆的。然而，如何有效利用這些片段，取決于用戶對 Sora 隱式或顯式鏡頭生成方式的理解。

例如，如果你要求 Sora 生成一個在廚房里長距離跟蹤的鏡頭，并且鏡頭中包含一個放在桌上的香蕉，Sora 將依賴于其對「香蕉」這一概念的隱式理解來生成一個顯示香蕉的視頻。

通過訓(xùn)練數(shù)據(jù)，Sora 已經(jīng)學(xué)習(xí)了香蕉性的隱式特性：例如「黃色」、「彎曲」、「末端有深色」等。但它沒有香蕉的實際記錄圖像，也沒有「香蕉庫存庫」數(shù)據(jù)庫；它有一個更小的壓縮隱藏或「潛在空間」來代表香蕉的概念。因此，每次生成的運(yùn)行都會展示出這個潛在空間的不同解釋，這意味著用戶輸入的提示必須基于對這些隱式特征的理解。

角色 Sonny 的一致性：

團(tuán)隊試圖在不同鏡頭中保持黃色氣球頭 Sonny 的一致性，但 Sora 無法確保每個鏡頭中的氣球顏色和樣式完全相同。有時氣球的顏色或樣式與提示不符，甚至出現(xiàn)意外的臉部圖案。

Sora 使用中的真相：進(jìn)步令人難以置信，但離不開大量人工

Sora 輸出的并不需要出現(xiàn)的面部圖案｜圖片來源：fxguide

分辨率和圖像處理：

《Air Head》使用了 Sora 生成的鏡頭，但其中很多都被分級、處理和穩(wěn)定化了，所有鏡頭都被放大或提升了分辨率。團(tuán)隊處理的片段都是以較低分辨率生成的，然后使用 Sora 或 OpenAI 之外的 AI 工具進(jìn)行了放大?！肝覀兯械摹禔ir Head》都是以 480 的速度制作的，然后使用 Topaz 進(jìn)行校正。」

時間控制的不精確性：

Shy Kids 使用的是最早的原型（Sora 仍在不斷改進(jìn)中），盡管可以在時間線上對關(guān)鍵幀進(jìn)行調(diào)整，但對于動作發(fā)生的確切時間點控制并不精確，結(jié)果具有一定的不確定性。

寬高比的選擇：

Sora 允許用戶選擇不同的寬高比，如肖像或風(fēng)景模式，這一功能對于特定的鏡頭設(shè)計至關(guān)重要。盡管 Sora 提供了靈活性，但它在原生渲染某些復(fù)雜鏡頭動作方面存在限制。例如，當(dāng)需要從角色 Sonny 的牛仔褲向上搖攝到他的氣球頭時，Sora 無法直接生成這樣的鏡頭。為了解決這一限制，團(tuán)隊先以肖像模式渲染了鏡頭，然后通過后期裁剪手動創(chuàng)建了后期的全景。

Sora 使用中的真相：進(jìn)步令人難以置信，但離不開大量人工

Sora 生成的鏡頭需要后期手動裁剪｜圖片來源：fxguide

相機(jī)方向的提示：

Sora 在理解和執(zhí)行相機(jī)運(yùn)動指令方面還不夠成熟。盡管用戶可以輸入如「相機(jī)平移」的提示，但 Sora 并不總是能夠準(zhǔn)確執(zhí)行。

渲染時長：

根據(jù)不同的云使用需求和時間，渲染一個片段可能需要 10 到 20 分鐘。團(tuán)隊傾向于渲染更長的片段，以便在后期制作中有更多編輯和調(diào)整的空間。

旋轉(zhuǎn)：

雖然所有的圖像都是在 Sora 中生成的，但氣球仍然需要大量的后期工作。除了隔離氣球以便重新上色外，還需要移除一些不應(yīng)該出現(xiàn)的面部圖案或其他痕跡。

Sora 使用中的真相：進(jìn)步令人難以置信，但離不開大量人工

Sora 的原始輸出｜圖片來源：fxguide

Sora 使用中的真相：進(jìn)步令人難以置信，但離不開大量人工

后期成品頁面｜圖片來源：fxguide

素材與成品比例：

帕特里克估計，最終影片中一分半鐘的鏡頭，是基于「數(shù)百次生成，每次 10 到 20 秒」的素材制作的，大約是 300:1 的源材料與最終成品比例。

拍攝合成和重新定時：

在《Air Head》中，大多數(shù)鏡頭是一次性生成的，沒有將多次拍攝合成在一起。

許多由 Sora 生成的視頻片段似乎被自動處理成了慢動作，速度只有正常速度的 50% 到 75%。團(tuán)隊需要重新定時，以讓它們看起來像是實時拍攝的。

版權(quán)：

Sora 不允許生成會構(gòu)成侵犯版權(quán)或看起來像是模仿特定作品的內(nèi)容。

例如輸入以下提示詞：「在一艘未來主義的太空船中，使用 35mm 膠片拍攝，一個男人手持光劍向前走」，Sora 將不允許生成片段，因為這樣的內(nèi)容太接近《星球大戰(zhàn)》。

Shy Kids 在早期測試中也遇到了這個問題。帕特里克回憶說，「我輸入了『阿羅諾夫斯基式的鏡頭』，結(jié)果收到了無法執(zhí)行的反饋?！顾€提到，「希區(qū)柯克式變焦」也是一個會被 Sora 拒絕的提示。

02、小結(jié)

去年，大模型的快速發(fā)展引起了一場好萊塢大編劇罷工，電影行業(yè)對于這項技術(shù)的擔(dān)憂開始增多。今年 2 月，OpenAI 推出的 Sora 被視為硅谷再次對好萊塢發(fā)起沖擊的信號。3 月初，更是有計劃了 4 年，資金規(guī)模約 8 億美元，場地面積高達(dá) 330 英畝的 12 個攝影棚的設(shè)計和建造等一系列的影視工作室擴(kuò)建計劃，因為 Sora 的出現(xiàn)被迅速擱淺。一時間，似乎好萊塢人人自危。

但當(dāng)使用 Sora 制作了短片的 Shy Kids 對這一技術(shù)進(jìn)行了全揭秘，人工后期被大量使用，Sora 還不能完成一些高級的復(fù)雜需求，這些似乎又都給了好萊塢更多緩沖的時間 —— 畢竟 Sora 目前尚處于非常早期的階段，還遠(yuǎn)遠(yuǎn)不能在電影工業(yè)的各個環(huán)節(jié)替代人工。

但值得注意的是：人工智能正在以比過去摩爾定律更快的速度提升智能，這點在以 GPT 為代表的大語言模型已經(jīng)得到了驗證。今天 Sora 的出現(xiàn)意味著視頻生成模型已經(jīng)來到了拐點，或許用不了多久我們就能看到可以用于視頻產(chǎn)業(yè)甚至電影工業(yè)的視頻大模型。

本文來自微信公眾號：極客公園（ID：geekpark），作者：連冉

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Sora 使用中的真相：進(jìn)步令人難以置信，但離不開大量人工

01、以下為 fxguide 與 Shy Kids 就 Sora 目前的工作原理進(jìn)行討論的內(nèi)容整理：

用戶界面和交互：為提升一致性，僅支持文本輸入

02、小結(jié)

相關(guān)文章

Sora 使用中的真相：進(jìn)步令人難以置信，但離不開大量人工

01、以下為 fxguide 與 Shy Kids 就 Sora 目前的工作原理進(jìn)行討論的內(nèi)容整理：

用戶界面和交互：為提升一致性，僅支持文本輸入

02、小結(jié)