Sora 的第一批使用者,詳細(xì)講述了自己使用其生成完整視頻的制作過程。
作者 | 連冉
編輯 | 鄭玄
2 月初,OpenAI 發(fā)布的 Sora 驚艷了全世界,它在文生視頻上的革命性突破,一度被視為吹向好萊塢的一場大風(fēng)暴。
Sora 是一種擴(kuò)散模型,與以往的 AI 視頻生成器相比,Sora 能夠依據(jù)提示詞生成長達(dá)一分鐘的視頻內(nèi)容,保持視覺質(zhì)量和一致性,并且實現(xiàn)鏡頭的切換和構(gòu)圖調(diào)整,它還能使視頻與背景相關(guān)的主題細(xì)節(jié)準(zhǔn)確符合,生成的視頻更加逼真,仿佛是現(xiàn)實世界的延伸。
當(dāng)時,OpenAI 還發(fā)布了技術(shù)說明,表明它未來可以將生成的視頻延長或無縫混合兩個視頻。
3 月起,Sora 對一些藝術(shù)家開放了使用權(quán)限,月末,OpenAI 在官網(wǎng)發(fā)布了幾位藝術(shù)家使用 Sora 生成的超現(xiàn)實視頻作品。近日,這些作品之一《氣球人》背后的藝術(shù)家團(tuán)隊 Shy Kids 全揭秘了使用 Sora 的制作過程。
整體看下來,真正投入到影視制作中的 Sora 并沒有當(dāng)初那么驚艷,但它已經(jīng)足夠令人震撼 —— 能讓一個僅有三人的團(tuán)隊,在大約 1.5 至 2 周的時間內(nèi)便制作出了一部精彩短片。
在該團(tuán)隊看來,當(dāng)前形態(tài)的 Sora 在特定的圖像生成方面取得了令人難以置信的進(jìn)步;但對于相對復(fù)雜的項目,可能還需要一段時間的進(jìn)化才能滿足導(dǎo)演的具體需求。除了 Sora 的使用,這部《Air Head》依然使用了大量的編輯和人為指導(dǎo)才制作完成。團(tuán)隊表示,「將 Sora 融入創(chuàng)作流程是一種很真實的工作方式,但如果不這么干,好像也沒什么關(guān)系。」
01、以下為 fxguide 與 Shy Kids 就 Sora 目前的工作原理進(jìn)行討論的內(nèi)容整理:
作為獲得了 Sora 的有限訪問權(quán)限的制作團(tuán)隊之一,Shy Kids 團(tuán)隊制作了 Sora 短片《Air Head》。Shy Kids 是一家加拿大制作公司,以其多樣化和創(chuàng)新的媒體制作方法而聞名。
Sora 目前正在開發(fā)中,并通過像 Shy Kids 這樣的團(tuán)隊的反饋積極改進(jìn)。重要的是要認(rèn)識到:Sora 尚處于非常早期的發(fā)展時期,幾乎可以稱之為前阿爾法階段。
Shy Kids 中負(fù)責(zé)后期制作的帕特里克評論道,使用 Sora 是很有趣的過程,Sora 是一個非常強(qiáng)大的工具,「我們已經(jīng)在夢想著它可以如何融入我們現(xiàn)有的流程。但我認(rèn)為對于任何生成性 AI 工具來說;控制力仍然是最令人向往的,也是目前最難捉摸的東西?!?/p>
用戶界面和交互:為提升一致性,僅支持文本輸入
Sora 的用戶界面設(shè)計簡潔,它允許藝術(shù)家通過輸入文本提示來啟動視頻片段的生成過程。
藝術(shù)家輸入想要的場景描述后,OpenAI 的 ChatGPT 技術(shù)會將其轉(zhuǎn)換成更長的字符串,這一步驟是觸發(fā) Sora 生成視頻片段的關(guān)鍵。
目前,Sora 僅支持文本輸入,尚未整合多模態(tài)輸入方式,也就是說,除了文本描述外,用戶無法通過其他形式如圖像或聲音來提供輸入。
這種設(shè)計的重要性在于,盡管 Sora 在保持視頻鏡頭內(nèi)對象的一致性方面做得非常出色,但系統(tǒng)目前還無法確保第一個鏡頭中的內(nèi)容與隨后的鏡頭完全匹配。
換句話說,即使是使用相同的文本提示,Sora 在不同時間生成的視頻片段也可能存在差異。為了盡可能保持一致性,用戶需要在文本提示中盡可能詳細(xì)地描述場景,包括角色的服裝和道具的類型等。然而,即便如此,Sora 在鏡頭之間的一致性控制方面仍然存在局限,因為它尚未具備完整的功能集來實現(xiàn)完全的控制。
「我們能做的最接近的事情就是在我們的提示中加入更詳細(xì)地描述,」帕特里克解釋道?!附忉尳巧姆b,以及氣球的類型,是我們實現(xiàn)一致性的方式,因為目前還沒有完整的功能集來完全控制鏡頭到鏡頭的一致性?!?/p>
Sora 生成的每個獨(dú)立片段,就其所代表的技術(shù)而言,都是令人驚嘆的。然而,如何有效利用這些片段,取決于用戶對 Sora 隱式或顯式鏡頭生成方式的理解。
例如,如果你要求 Sora 生成一個在廚房里長距離跟蹤的鏡頭,并且鏡頭中包含一個放在桌上的香蕉,Sora 將依賴于其對「香蕉」這一概念的隱式理解來生成一個顯示香蕉的視頻。
通過訓(xùn)練數(shù)據(jù),Sora 已經(jīng)學(xué)習(xí)了香蕉性的隱式特性:例如「黃色」、「彎曲」、「末端有深色」等。但它沒有香蕉的實際記錄圖像,也沒有「香蕉庫存庫」數(shù)據(jù)庫;它有一個更小的壓縮隱藏或「潛在空間」來代表香蕉的概念。因此,每次生成的運(yùn)行都會展示出這個潛在空間的不同解釋,這意味著用戶輸入的提示必須基于對這些隱式特征的理解。
角色 Sonny 的一致性:
團(tuán)隊試圖在不同鏡頭中保持黃色氣球頭 Sonny 的一致性,但 Sora 無法確保每個鏡頭中的氣球顏色和樣式完全相同。有時氣球的顏色或樣式與提示不符,甚至出現(xiàn)意外的臉部圖案。
分辨率和圖像處理:
《Air Head》使用了 Sora 生成的鏡頭,但其中很多都被分級、處理和穩(wěn)定化了,所有鏡頭都被放大或提升了分辨率。團(tuán)隊處理的片段都是以較低分辨率生成的,然后使用 Sora 或 OpenAI 之外的 AI 工具進(jìn)行了放大?!肝覀兯械摹禔ir Head》都是以 480 的速度制作的,然后使用 Topaz 進(jìn)行校正。」
時間控制的不精確性:
Shy Kids 使用的是最早的原型(Sora 仍在不斷改進(jìn)中),盡管可以在時間線上對關(guān)鍵幀進(jìn)行調(diào)整,但對于動作發(fā)生的確切時間點控制并不精確,結(jié)果具有一定的不確定性。
寬高比的選擇:
Sora 允許用戶選擇不同的寬高比,如肖像或風(fēng)景模式,這一功能對于特定的鏡頭設(shè)計至關(guān)重要。盡管 Sora 提供了靈活性,但它在原生渲染某些復(fù)雜鏡頭動作方面存在限制。例如,當(dāng)需要從角色 Sonny 的牛仔褲向上搖攝到他的氣球頭時,Sora 無法直接生成這樣的鏡頭。為了解決這一限制,團(tuán)隊先以肖像模式渲染了鏡頭,然后通過后期裁剪手動創(chuàng)建了后期的全景。
相機(jī)方向的提示:
Sora 在理解和執(zhí)行相機(jī)運(yùn)動指令方面還不夠成熟。盡管用戶可以輸入如「相機(jī)平移」的提示,但 Sora 并不總是能夠準(zhǔn)確執(zhí)行。
渲染時長:
根據(jù)不同的云使用需求和時間,渲染一個片段可能需要 10 到 20 分鐘。團(tuán)隊傾向于渲染更長的片段,以便在后期制作中有更多編輯和調(diào)整的空間。
旋轉(zhuǎn):
雖然所有的圖像都是在 Sora 中生成的,但氣球仍然需要大量的后期工作。除了隔離氣球以便重新上色外,還需要移除一些不應(yīng)該出現(xiàn)的面部圖案或其他痕跡。
素材與成品比例:
帕特里克估計,最終影片中一分半鐘的鏡頭,是基于「數(shù)百次生成,每次 10 到 20 秒」的素材制作的,大約是 300:1 的源材料與最終成品比例。
拍攝合成和重新定時:
在《Air Head》中,大多數(shù)鏡頭是一次性生成的,沒有將多次拍攝合成在一起。
許多由 Sora 生成的視頻片段似乎被自動處理成了慢動作,速度只有正常速度的 50% 到 75%。團(tuán)隊需要重新定時,以讓它們看起來像是實時拍攝的。
版權(quán):
Sora 不允許生成會構(gòu)成侵犯版權(quán)或看起來像是模仿特定作品的內(nèi)容。
例如輸入以下提示詞:「在一艘未來主義的太空船中,使用 35mm 膠片拍攝,一個男人手持光劍向前走」,Sora 將不允許生成片段,因為這樣的內(nèi)容太接近《星球大戰(zhàn)》。
Shy Kids 在早期測試中也遇到了這個問題。帕特里克回憶說,「我輸入了『阿羅諾夫斯基式的鏡頭』,結(jié)果收到了無法執(zhí)行的反饋?!顾€提到,「希區(qū)柯克式變焦」也是一個會被 Sora 拒絕的提示。
02、小結(jié)
去年,大模型的快速發(fā)展引起了一場好萊塢大編劇罷工,電影行業(yè)對于這項技術(shù)的擔(dān)憂開始增多。今年 2 月,OpenAI 推出的 Sora 被視為硅谷再次對好萊塢發(fā)起沖擊的信號。3 月初,更是有計劃了 4 年,資金規(guī)模約 8 億美元,場地面積高達(dá) 330 英畝的 12 個攝影棚的設(shè)計和建造等一系列的影視工作室擴(kuò)建計劃,因為 Sora 的出現(xiàn)被迅速擱淺。一時間,似乎好萊塢人人自危。
但當(dāng)使用 Sora 制作了短片的 Shy Kids 對這一技術(shù)進(jìn)行了全揭秘,人工后期被大量使用,Sora 還不能完成一些高級的復(fù)雜需求,這些似乎又都給了好萊塢更多緩沖的時間 —— 畢竟 Sora 目前尚處于非常早期的階段,還遠(yuǎn)遠(yuǎn)不能在電影工業(yè)的各個環(huán)節(jié)替代人工。
但值得注意的是:人工智能正在以比過去摩爾定律更快的速度提升智能,這點在以 GPT 為代表的大語言模型已經(jīng)得到了驗證。今天 Sora 的出現(xiàn)意味著視頻生成模型已經(jīng)來到了拐點,或許用不了多久我們就能看到可以用于視頻產(chǎn)業(yè)甚至電影工業(yè)的視頻大模型。
本文來自微信公眾號:極客公園 (ID:geekpark),作者:連冉
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。