Sora「翻車」：猴子長(zhǎng)出鸚鵡尾巴，物體學(xué)會(huì)「穿墻術(shù)」

極客公園 2024/3/3 20:00:01 責(zé)編：夢(mèng)澤

評(píng)論：

扭曲的翅膀，出錯(cuò)的數(shù)量，鸚鵡的尾巴跑到猴子身上……

作者 | 連冉

編輯 | 鄭玄

「一只鸚鵡飛過(guò)青翠的哥斯達(dá)黎加叢林，然后降落在樹(shù)枝上與一群猴子一起吃一塊水果的俯視圖；黃金時(shí)段，35 毫米膠片?！惯@是彭博社給到 OpenAI 研究人員的提示詞，后者使用這些提示詞在 Sora 上創(chuàng)建了場(chǎng)景。

23 日，彭博社聯(lián)系 OpenAI 對(duì) Sora 進(jìn)行了測(cè)試，從結(jié)果來(lái)看，Sora 還未到「黃金時(shí)段」。

在給到的四句提示語(yǔ)中，由于時(shí)間限制，Sora 團(tuán)隊(duì)只將其中兩句提示詞生成了視頻。

問(wèn)題出現(xiàn)了。

在時(shí)長(zhǎng)僅有 10 秒的視頻中，一只鸚鵡在叢林中飛翔，乍看正常，細(xì)看就會(huì)發(fā)現(xiàn)，鸚鵡的翅膀在飛過(guò)猴子時(shí)會(huì)扭曲，并且，提示語(yǔ)中之要求「一只鸚鵡」，Sora 輸出的視頻里卻出現(xiàn)了好幾只，并且，視頻中一只猴子的臀部似乎還有一條鸚鵡的尾巴。這么看，似乎有點(diǎn)「翻車」即視感。

對(duì)此，OpenAI 研究科學(xué)家 Bill Peebles（比爾?皮布爾斯）也對(duì)彭博承認(rèn)了這一點(diǎn)，「確實(shí)會(huì)在片段中找到一些奇怪的動(dòng)作」

在 The Verge 截取發(fā)布在 TikTok 上的這段由 Sora 生成的視頻片段中同樣可以看到一些不合理的情況，包括物體相互穿過(guò)、變形，這背后反映的是 Sora 在還不能夠準(zhǔn)確理解和呈現(xiàn)物體的物理特性：籃球穿過(guò)籃筐的側(cè)面，狗在走路時(shí)相互穿過(guò)，手的形狀也有點(diǎn)奇怪。

Sora「翻車」：猴子長(zhǎng)出鸚鵡尾巴，物體學(xué)會(huì)「穿墻術(shù)」

籃球穿過(guò)籃筐的側(cè)面｜圖片來(lái)源：TikTok

Sora「翻車」：猴子長(zhǎng)出鸚鵡尾巴，物體學(xué)會(huì)「穿墻術(shù)」

狗在走路時(shí)相互穿過(guò)｜圖片來(lái)源：TikTok

YouTube 上也有一位博主更為詳細(xì)地解析了 Sora 產(chǎn)出的視頻中存在的問(wèn)題，與 The Verge 展現(xiàn)的類似，除了狗狗似乎在互相穿過(guò)身體的那支視頻，在一只柯基犬的 vlog 里，有一只海鷗飛到了相機(jī)前卻又突然消失，隨后畫(huà)面里又出現(xiàn)了另一只，以怪異的方式在行走；在一個(gè)建筑工地的視頻里，一輛叉車似乎可以不受周圍物體的影響輕松通過(guò)。此外還有一個(gè)生日派對(duì)的場(chǎng)景，參與者的表情和動(dòng)作看起來(lái)都有種說(shuō)不出的詭異感。

看起來(lái)，雖然 Sora 可以生成出色的視頻，但當(dāng)場(chǎng)景復(fù)雜時(shí)，它可能會(huì)給出一些不符合現(xiàn)實(shí)場(chǎng)景的動(dòng)作。OpenAI 官方也表示，Sora 還有很長(zhǎng)的路要走，有很多技術(shù)挑戰(zhàn)需要解決 —— 包括前面提到的身體部位的雜亂問(wèn)題和對(duì)物理學(xué)的理解水平。

OpenAI 在 Sora 的技術(shù)報(bào)告中指出，Sora 作為視頻生成模型在模擬現(xiàn)實(shí)世界時(shí)面臨一系列挑戰(zhàn)和局限性。具體來(lái)講，Sora 在技術(shù)層面存在以下主要局限：

物理交互的準(zhǔn)確性：Sora 在模擬一些基本的物理交互現(xiàn)象時(shí)存在不足，例如無(wú)法準(zhǔn)確模擬玻璃破碎等物理現(xiàn)象。
對(duì)象狀態(tài)變化的一致性：在模擬如進(jìn)食等交互時(shí)，Sora 可能無(wú)法產(chǎn)生正確的物體狀態(tài)變化，導(dǎo)致視頻中出現(xiàn)不連貫的視覺(jué)效果。
長(zhǎng)期樣本的連貫性：在生成較長(zhǎng)時(shí)間跨度的視頻樣本時(shí)，Sora 可能會(huì)出現(xiàn)連貫性問(wèn)題，導(dǎo)致視頻中出現(xiàn)不自然的過(guò)渡或物體的突然變化。
物體的自發(fā)出現(xiàn)：Sora 有時(shí)會(huì)在視頻中自發(fā)地生成物體，這些物體可能與場(chǎng)景不匹配或在邏輯上不合理。
手部和身體部位的處理：Sora 在處理手部和身體部位時(shí)存在問(wèn)題，如手部可能表現(xiàn)得不自然或與其他物體發(fā)生不真實(shí)的交互。
計(jì)算資源的需求：Sora 生成視頻需要較多的計(jì)算資源和時(shí)間，這限制了其在實(shí)時(shí)或快速響應(yīng)場(chǎng)景中的應(yīng)用。
模型的泛化能力：盡管 Sora 在某些特定場(chǎng)景下表現(xiàn)出色，但它在泛化到新場(chǎng)景和處理多樣化輸入方面可能還有待提高。
視頻編輯和擴(kuò)展的能力：雖然 Sora 能夠執(zhí)行一些視頻編輯任務(wù)，如擴(kuò)展視頻或改變場(chǎng)景設(shè)置，但這些功能可能在復(fù)雜場(chǎng)景中表現(xiàn)不佳。

由于上述技術(shù)局限，在讓外界驚鴻一瞥后，Sora 的短暫「翻車」似乎也并不令人意外。

作為一款文本轉(zhuǎn)視頻模型，Sora 采用了 Diffusion transformer 技術(shù)（包括特征提取、編碼、序列組合等多個(gè)步驟）。

與大模型處理文本的原理類似，Sora 將視頻內(nèi)容分解成一系列 patch（視覺(jué)編碼塊），這些 patch 類似于視頻的視覺(jué)詞匯，然后，它會(huì)對(duì)這些 patch 進(jìn)行降維處理，以便于分析和理解，在這一過(guò)程中，Sora 通過(guò)去噪技術(shù)，從帶有噪聲的 patch 中預(yù)測(cè)出清晰的原始圖像信息，最終合成為連貫的視頻。換句話說(shuō)，Sora 的訓(xùn)練過(guò)程類似于人類的認(rèn)知過(guò)程，這一點(diǎn)讓它極大地優(yōu)化了視頻生成的效果。

隨著技術(shù)的突破，問(wèn)題會(huì)解決。對(duì)于推新飛快的 OpenAI 來(lái)說(shuō)，應(yīng)該用不了很久。

本文來(lái)自微信公眾號(hào)：極客公園（ID：geekpark），作者：連冉

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Sora「翻車」：猴子長(zhǎng)出鸚鵡尾巴，物體學(xué)會(huì)「穿墻術(shù)」

相關(guān)文章

Sora「翻車」：猴子長(zhǎng)出鸚鵡尾巴，物體學(xué)會(huì)「穿墻術(shù)」