設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Sora「翻車」:猴子長出鸚鵡尾巴,物體學會「穿墻術(shù)」

極客公園 2024/3/3 20:00:01 責編:夢澤

扭曲的翅膀,出錯的數(shù)量,鸚鵡的尾巴跑到猴子身上……

作者 | 連冉

編輯 | 鄭玄

「一只鸚鵡飛過青翠的哥斯達黎加叢林,然后降落在樹枝上與一群猴子一起吃一塊水果的俯視圖;黃金時段,35 毫米膠片?!惯@是彭博社給到 OpenAI 研究人員的提示詞,后者使用這些提示詞在 Sora 上創(chuàng)建了場景。

23 日,彭博社聯(lián)系 OpenAI 對 Sora 進行了測試,從結(jié)果來看,Sora 還未到「黃金時段」。

在給到的四句提示語中,由于時間限制,Sora 團隊只將其中兩句提示詞生成了視頻。

問題出現(xiàn)了。

在時長僅有 10 秒的視頻中,一只鸚鵡在叢林中飛翔,乍看正常,細看就會發(fā)現(xiàn),鸚鵡的翅膀在飛過猴子時會扭曲,并且,提示語中之要求「一只鸚鵡」,Sora 輸出的視頻里卻出現(xiàn)了好幾只,并且,視頻中一只猴子的臀部似乎還有一條鸚鵡的尾巴。這么看,似乎有點「翻車」即視感。

對此,OpenAI 研究科學家 Bill Peebles(比爾?皮布爾斯)也對彭博承認了這一點,「確實會在片段中找到一些奇怪的動作」

在 The Verge 截取發(fā)布在 TikTok 上的這段由 Sora 生成的視頻片段中同樣可以看到一些不合理的情況,包括物體相互穿過、變形,這背后反映的是 Sora 在還不能夠準確理解和呈現(xiàn)物體的物理特性:籃球穿過籃筐的側(cè)面,狗在走路時相互穿過,手的形狀也有點奇怪。

籃球穿過籃筐的側(cè)面|圖片來源:TikTok

狗在走路時相互穿過|圖片來源:TikTok

YouTube 上也有一位博主更為詳細地解析了 Sora 產(chǎn)出的視頻中存在的問題,與 The Verge 展現(xiàn)的類似,除了狗狗似乎在互相穿過身體的那支視頻,在一只柯基犬的 vlog 里,有一只海鷗飛到了相機前卻又突然消失,隨后畫面里又出現(xiàn)了另一只,以怪異的方式在行走;在一個建筑工地的視頻里,一輛叉車似乎可以不受周圍物體的影響輕松通過。此外還有一個生日派對的場景,參與者的表情和動作看起來都有種說不出的詭異感。

看起來,雖然 Sora 可以生成出色的視頻,但當場景復雜時,它可能會給出一些不符合現(xiàn)實場景的動作。OpenAI 官方也表示,Sora 還有很長的路要走,有很多技術(shù)挑戰(zhàn)需要解決 —— 包括前面提到的身體部位的雜亂問題和對物理學的理解水平。

OpenAI 在 Sora 的技術(shù)報告中指出,Sora 作為視頻生成模型在模擬現(xiàn)實世界時面臨一系列挑戰(zhàn)和局限性。具體來講,Sora 在技術(shù)層面存在以下主要局限:

  • 物理交互的準確性:Sora 在模擬一些基本的物理交互現(xiàn)象時存在不足,例如無法準確模擬玻璃破碎等物理現(xiàn)象。

  • 對象狀態(tài)變化的一致性:在模擬如進食等交互時,Sora 可能無法產(chǎn)生正確的物體狀態(tài)變化,導致視頻中出現(xiàn)不連貫的視覺效果。

  • 長期樣本的連貫性:在生成較長時間跨度的視頻樣本時,Sora 可能會出現(xiàn)連貫性問題,導致視頻中出現(xiàn)不自然的過渡或物體的突然變化。

  • 物體的自發(fā)出現(xiàn):Sora 有時會在視頻中自發(fā)地生成物體,這些物體可能與場景不匹配或在邏輯上不合理。

  • 手部和身體部位的處理:Sora 在處理手部和身體部位時存在問題,如手部可能表現(xiàn)得不自然或與其他物體發(fā)生不真實的交互。

  • 計算資源的需求:Sora 生成視頻需要較多的計算資源和時間,這限制了其在實時或快速響應場景中的應用。

  • 模型的泛化能力:盡管 Sora 在某些特定場景下表現(xiàn)出色,但它在泛化到新場景和處理多樣化輸入方面可能還有待提高。

  • 視頻編輯和擴展的能力:雖然 Sora 能夠執(zhí)行一些視頻編輯任務,如擴展視頻或改變場景設(shè)置,但這些功能可能在復雜場景中表現(xiàn)不佳。

由于上述技術(shù)局限,在讓外界驚鴻一瞥后,Sora 的短暫「翻車」似乎也并不令人意外。

作為一款文本轉(zhuǎn)視頻模型,Sora 采用了 Diffusion transformer 技術(shù)(包括特征提取、編碼、序列組合等多個步驟)。

與大模型處理文本的原理類似,Sora 將視頻內(nèi)容分解成一系列 patch(視覺編碼塊),這些 patch 類似于視頻的視覺詞匯,然后,它會對這些 patch 進行降維處理,以便于分析和理解,在這一過程中,Sora 通過去噪技術(shù),從帶有噪聲的 patch 中預測出清晰的原始圖像信息,最終合成為連貫的視頻。換句話說,Sora 的訓練過程類似于人類的認知過程,這一點讓它極大地優(yōu)化了視頻生成的效果。

隨著技術(shù)的突破,問題會解決。對于推新飛快的 OpenAI 來說,應該用不了很久。

本文來自微信公眾號:極客公園 (ID:geekpark),作者:連冉

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Sora,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知