扭曲的翅膀,出錯(cuò)的數(shù)量,鸚鵡的尾巴跑到猴子身上……
作者 | 連冉
編輯 | 鄭玄
「一只鸚鵡飛過(guò)青翠的哥斯達(dá)黎加叢林,然后降落在樹(shù)枝上與一群猴子一起吃一塊水果的俯視圖;黃金時(shí)段,35 毫米膠片?!惯@是彭博社給到 OpenAI 研究人員的提示詞,后者使用這些提示詞在 Sora 上創(chuàng)建了場(chǎng)景。
23 日,彭博社聯(lián)系 OpenAI 對(duì) Sora 進(jìn)行了測(cè)試,從結(jié)果來(lái)看,Sora 還未到「黃金時(shí)段」。
在給到的四句提示語(yǔ)中,由于時(shí)間限制,Sora 團(tuán)隊(duì)只將其中兩句提示詞生成了視頻。
問(wèn)題出現(xiàn)了。
在時(shí)長(zhǎng)僅有 10 秒的視頻中,一只鸚鵡在叢林中飛翔,乍看正常,細(xì)看就會(huì)發(fā)現(xiàn),鸚鵡的翅膀在飛過(guò)猴子時(shí)會(huì)扭曲,并且,提示語(yǔ)中之要求「一只鸚鵡」,Sora 輸出的視頻里卻出現(xiàn)了好幾只,并且,視頻中一只猴子的臀部似乎還有一條鸚鵡的尾巴。這么看,似乎有點(diǎn)「翻車」即視感。
對(duì)此,OpenAI 研究科學(xué)家 Bill Peebles(比爾?皮布爾斯)也對(duì)彭博承認(rèn)了這一點(diǎn),「確實(shí)會(huì)在片段中找到一些奇怪的動(dòng)作」
在 The Verge 截取發(fā)布在 TikTok 上的這段由 Sora 生成的視頻片段中同樣可以看到一些不合理的情況,包括物體相互穿過(guò)、變形,這背后反映的是 Sora 在還不能夠準(zhǔn)確理解和呈現(xiàn)物體的物理特性:籃球穿過(guò)籃筐的側(cè)面,狗在走路時(shí)相互穿過(guò),手的形狀也有點(diǎn)奇怪。
籃球穿過(guò)籃筐的側(cè)面|圖片來(lái)源:TikTok
YouTube 上也有一位博主更為詳細(xì)地解析了 Sora 產(chǎn)出的視頻中存在的問(wèn)題,與 The Verge 展現(xiàn)的類似,除了狗狗似乎在互相穿過(guò)身體的那支視頻,在一只柯基犬的 vlog 里,有一只海鷗飛到了相機(jī)前卻又突然消失,隨后畫(huà)面里又出現(xiàn)了另一只,以怪異的方式在行走;在一個(gè)建筑工地的視頻里,一輛叉車似乎可以不受周圍物體的影響輕松通過(guò)。此外還有一個(gè)生日派對(duì)的場(chǎng)景,參與者的表情和動(dòng)作看起來(lái)都有種說(shuō)不出的詭異感。
看起來(lái),雖然 Sora 可以生成出色的視頻,但當(dāng)場(chǎng)景復(fù)雜時(shí),它可能會(huì)給出一些不符合現(xiàn)實(shí)場(chǎng)景的動(dòng)作。OpenAI 官方也表示,Sora 還有很長(zhǎng)的路要走,有很多技術(shù)挑戰(zhàn)需要解決 —— 包括前面提到的身體部位的雜亂問(wèn)題和對(duì)物理學(xué)的理解水平。
OpenAI 在 Sora 的技術(shù)報(bào)告中指出,Sora 作為視頻生成模型在模擬現(xiàn)實(shí)世界時(shí)面臨一系列挑戰(zhàn)和局限性。具體來(lái)講,Sora 在技術(shù)層面存在以下主要局限:
物理交互的準(zhǔn)確性:Sora 在模擬一些基本的物理交互現(xiàn)象時(shí)存在不足,例如無(wú)法準(zhǔn)確模擬玻璃破碎等物理現(xiàn)象。
對(duì)象狀態(tài)變化的一致性:在模擬如進(jìn)食等交互時(shí),Sora 可能無(wú)法產(chǎn)生正確的物體狀態(tài)變化,導(dǎo)致視頻中出現(xiàn)不連貫的視覺(jué)效果。
長(zhǎng)期樣本的連貫性:在生成較長(zhǎng)時(shí)間跨度的視頻樣本時(shí),Sora 可能會(huì)出現(xiàn)連貫性問(wèn)題,導(dǎo)致視頻中出現(xiàn)不自然的過(guò)渡或物體的突然變化。
物體的自發(fā)出現(xiàn):Sora 有時(shí)會(huì)在視頻中自發(fā)地生成物體,這些物體可能與場(chǎng)景不匹配或在邏輯上不合理。
手部和身體部位的處理:Sora 在處理手部和身體部位時(shí)存在問(wèn)題,如手部可能表現(xiàn)得不自然或與其他物體發(fā)生不真實(shí)的交互。
計(jì)算資源的需求:Sora 生成視頻需要較多的計(jì)算資源和時(shí)間,這限制了其在實(shí)時(shí)或快速響應(yīng)場(chǎng)景中的應(yīng)用。
模型的泛化能力:盡管 Sora 在某些特定場(chǎng)景下表現(xiàn)出色,但它在泛化到新場(chǎng)景和處理多樣化輸入方面可能還有待提高。
視頻編輯和擴(kuò)展的能力:雖然 Sora 能夠執(zhí)行一些視頻編輯任務(wù),如擴(kuò)展視頻或改變場(chǎng)景設(shè)置,但這些功能可能在復(fù)雜場(chǎng)景中表現(xiàn)不佳。
由于上述技術(shù)局限,在讓外界驚鴻一瞥后,Sora 的短暫「翻車」似乎也并不令人意外。
作為一款文本轉(zhuǎn)視頻模型,Sora 采用了 Diffusion transformer 技術(shù)(包括特征提取、編碼、序列組合等多個(gè)步驟)。
與大模型處理文本的原理類似,Sora 將視頻內(nèi)容分解成一系列 patch(視覺(jué)編碼塊),這些 patch 類似于視頻的視覺(jué)詞匯,然后,它會(huì)對(duì)這些 patch 進(jìn)行降維處理,以便于分析和理解,在這一過(guò)程中,Sora 通過(guò)去噪技術(shù),從帶有噪聲的 patch 中預(yù)測(cè)出清晰的原始圖像信息,最終合成為連貫的視頻。換句話說(shuō),Sora 的訓(xùn)練過(guò)程類似于人類的認(rèn)知過(guò)程,這一點(diǎn)讓它極大地優(yōu)化了視頻生成的效果。
隨著技術(shù)的突破,問(wèn)題會(huì)解決。對(duì)于推新飛快的 OpenAI 來(lái)說(shuō),應(yīng)該用不了很久。
本文來(lái)自微信公眾號(hào):極客公園 (ID:geekpark),作者:連冉
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。