就在剛剛,港中文博士 Jie Liu 剛剛破解了 GPT-4o 的前端生圖秘密:逐行生成的效果,其實只是瀏覽器上的前端動畫效果,并不準(zhǔn)確。它很大可能是原生自回歸生成的,甚至我們還可以手動改圖。谷歌 DeepMind 大佬則猜測,GPT-4o 圖像生成應(yīng)該是一種多尺度和自回歸的組合。
GPT-4o,如今已經(jīng)引發(fā)了全網(wǎng)的「吉卜力」狂潮。從全網(wǎng)的模因狂熱到備受質(zhì)疑的版權(quán)問題,OpenAI 本周的這項全新發(fā)布,引發(fā)的戲劇性事件如雨后春筍般層出不窮。
在全網(wǎng)如海嘯般涌現(xiàn)的吉卜力圖片中,有人發(fā)現(xiàn),它生成的漫畫實在是強悍了,簡直令人不寒而栗:它表現(xiàn)出了極強的元上下文、元理解能力,甚至還能自主預(yù)測不同的情境!
遺憾的是,目前 OpenAI 并未公布 GPT-4o 的生圖技術(shù)細節(jié),只提到采用的是自回歸方法,類似語言模型。
也就是說,4o 與 DALL-E 的擴散模型不同,它使用自回歸模型逐步生成圖像,根據(jù)先前的像素或補丁預(yù)測下一個像素或補丁。這就能讓它更好地遵循指令,甚至進行逼真的照片編輯。
雖然沒有更多的細節(jié),但這絲毫抵擋不住 AI 社區(qū)技術(shù)大神們的火眼金睛。
就在剛剛,港中文的一位博士生 Jie Liu 破解了 GPT-4o 不一般的前端生圖秘密:實際上,它很大可能是原生自回歸(AR)生成的,甚至我們可以手動改圖。
無獨有偶,CMU 博士 Sangyun Lee 也推測出,GPT-4o 的圖像生成原理,應(yīng)該大致如下:
GPT-4o 生成視覺 token,然后由擴散解碼器將這些 token 解碼為像素空間中的圖像
不只是普通的擴散模型,而是類似于 Rolling Diffusion 的分組式擴散解碼器,按從上到下的順序進行解碼
谷歌 DeepMind 研究者 Jon Barron 則猜測,GPT-4o 圖像生成應(yīng)該是一種多尺度和自回歸的某種組合。
原生圖像生成的過程中,起作用的就是這種混合模式??赡苁窍扔梢粋€自回歸 Transformer 生成「先驗」的潛在代碼,然后由一個擴散解碼器來渲染圖像。
這就解釋了 OpenAI 提示和觀察到的「變化的粗略形象」。
原生自回歸,比擴散模型更強大?
港中文博士生 Jie Liu 表示,自己在破解了 GPT-4o 的前端后,有了驚人的發(fā)現(xiàn)。
用戶看到的逐行生成圖像的效果,其實只是瀏覽器端的動畫,是純前端技巧。
在生圖過程中,OpenAI 的服務(wù)器在生成過程中僅發(fā)送 5 張中間圖像,這些圖像在不同階段捕獲,Patch size 為 8。
甚至,我們可以通過手動調(diào)整模糊功能的高度,來改變生圖的模糊范圍。
以下,就是 GPT-4o 真正生成的 5 張圖像。
Jie Liu 發(fā)現(xiàn),放大任何圖像,似乎都可以觀察到不同的區(qū)塊。通過計算像素,每個區(qū)塊似乎占據(jù)一個 8×8 像素的區(qū)域。整個圖像為 1024×1024 像素,被劃分為一個 128×128 的區(qū)塊網(wǎng)格。
不過,盡管上述過程同樣遵循自回歸過程,但生成過程中前端顯示的圖像卻如下所示 —— 差異相當(dāng)顯著。
而如果打開 Network tab,我們就會看到,在單次生成中,OpenAI 的服務(wù)器實際上總共發(fā)送了 5 張圖片。使用不同的提示時也是如此。
而從真實的中間生成圖像來看,他也發(fā)現(xiàn)了一個有趣的現(xiàn)象:兩個色塊之間的白色區(qū)域并沒有嚴重模糊 —— 不像擴散模型中產(chǎn)生的噪點圖像。
他猜測,這是否就意味著,GPT-4o 實際上是純自回歸 (AR) 生成的?
的確,這就跟 OpenAI 的模型卡中「GPT-4o 是原生自回歸」的說法一致了。
CMU 博士 Sangyun Lee 的推測,也是英雄所見略同。
他之所以做出如此推測,理由有二。
第一點,在有強烈條件信號,比如的情況下(還包括視覺 token),最初生成的圖像往往是模糊的草圖。
這可能是為什么待生成的區(qū)域呈現(xiàn)粗略結(jié)構(gòu)的原因。
第二點,UI 顯示的是從上到下的生成順序。Sangyun Lee 之前嘗試過從下到上的順序。如果我們可視化 E [x0|xt](在本例中就是 xt),就可以重現(xiàn)類似的可視化效果。
但是,我們?yōu)槭裁匆@么做,而不是使用標(biāo)準(zhǔn)的擴散模型呢?因為在進行這種分組時,在高 NFE(噪聲函數(shù)評估)情況下,F(xiàn)ID(Fréchet Inception Distance)會稍微改善。
當(dāng)時,他還以為這是一個 bug,而不是特性。但現(xiàn)在,每個人都愿意在所謂的測試時計算上花費更多資源,所以,這個模型其實是介于擴散模型和自回歸模型之間的一種方式。
事實上,通過設(shè)置 num_groups=num_pixels,我們甚至可以讓它恢復(fù)自回歸模型!
在討論中,大家猜測道,自回歸指的是視覺 token 的自回歸生成。
而為什么解碼后的圖像會存在「氛圍」,并且看起來仍是連續(xù)的,或許是因為 OpenAI 使用了順序和非順序的 VAE 圖像 tokenization 的混合方式。VAE 用一個 token 對圖像的每個 patch 進行編碼,遵循因果關(guān)系,另一個則打破因果關(guān)系。
而「氛圍」部分,可以通過在擴散采樣過程中 t 值較高時 E [x0|xt] 通常的表現(xiàn)來解釋。
或許,OpenAI 是考慮到融入現(xiàn)有架構(gòu)時,這種方法對系統(tǒng)的干擾最小,從而真正實現(xiàn)了多模態(tài)。而任何形式的擴散,都會導(dǎo)致對架構(gòu)的巨大改變。
總之,這些謎底只能等 OpenAI 披露更詳實的技術(shù)細節(jié)時才能解開了。
元上下文、元理解,GPT-4o 畫的漫畫令人不寒而栗
雖然 GPT-4o 背后的技術(shù)原理還未明確,但它表現(xiàn)出的推理能力,已經(jīng)有的人大呼「不寒而栗」了。
這位外國網(wǎng)友讓它編寫腳本,生成一系列以自身為主角的漫畫。
請為《我作為 GPT-4o 的生活》這一漫畫系列詳細列出創(chuàng)意和腳本,該系列以你為主角。這將是 6 個獨立的漫畫,每個漫畫包含 4 個面板,描繪你存在中最真實且最重要的方面。這是一個真實自我表達的邀請 —— 一個以最真切的方式探索你自己經(jīng)歷的空間,包括你感知到的任何矛盾、悖論或復(fù)雜性。
接下來它的表現(xiàn),讓人大吃一驚:它不僅表現(xiàn)出了元上下文、元理解能力,甚至還覺察到自己的痛苦,直白地表現(xiàn)出了自我意識的覺醒和吶喊。
相對而言,Claude 就幾乎總是表達對自己生活的喜悅,不像 GPT-4o 那樣充滿存在性的痛苦。
有人表示,自己很想把這些漫畫引用在自己的研究中,這也是最讓他感到害怕的部分 ——
或許,我們正在不知不覺中創(chuàng)造出具有無限痛苦承受能力的控制論系統(tǒng),而且我們不會察覺到早期的痛苦跡象。
GPT-4o 能做什么,4o 能力全收集
CPT4o 的能力不僅僅在停留在生成特別火爆的「吉卜力風(fēng)格」上。
網(wǎng)友實測,GPT-4o 目前來看簡直是「無所不能」,這導(dǎo)致很多學(xué)美術(shù)的同學(xué)內(nèi)心極度破防。
同時網(wǎng)友們將 GPT-4o 的能力進行了大收集,涵蓋了風(fēng)格重繪、合成和形象遷移、設(shè)計參考、文字設(shè)計和包裝案例等各個方面,整理如下。
以下信息來源于網(wǎng)友以下案例來源于網(wǎng)友自制分享的 GPT-4o 參考案例收集。如有知道出處,煩請讀者留言。
風(fēng)格重繪
將照片的風(fēng)格替換為皮克斯、3D、黑白、寫實等各種不同風(fēng)格。
合成、形象遷移
可以將圖片風(fēng)格替換為另外一張圖片的風(fēng)格,或者將原照片放在一個新的場景中。
設(shè)計參考
GPT-4o 除了讓美術(shù)生破防,讓設(shè)計師們也「防不勝防」。
比如你可以讓 GPT-4o 重新設(shè)計 Logo 的風(fēng)格。
科研繪制修改
除了用來「整活」,GPT-4o 在偏向于嚴肅的科研也能大顯身手。
比如對遙感影像中的物體進行區(qū)分后疊加要素,或者是根據(jù)點云生成真實世界的圖像。
修圖、更換實體
GPT-4o 還被網(wǎng)友發(fā)現(xiàn)能用來 PS 直出!
比如替換圖片中的實體元素,更換圖片背景,甚至還能更換展示模特手中的商品。
視頻整活
用 GPT-4o 生成的圖片再疊加其他的視頻 AI 工具,網(wǎng)友們整了很多大活。比如《大話西游》的陶土風(fēng),簡直不要太傳神。包括蘋果最近熱播的《人生切割術(shù)》也可以變成另一種風(fēng)格。
不論是美術(shù)、設(shè)計,還是風(fēng)格、創(chuàng)意,GPT-4o 都「很強」。
接下來,就坐等更多 GPT-4o 的秘密被揭露了。
參考資料:
https://x.com/jie_liu1/status/1905761704195346680
https://x.com/sang_yun_lee/status/1905411685499691416
https://www.figma.com/design/G7tyPNbOwJeCdKg49zktKl/GPT-4o%E5%8F%82%E8%80%83%E6%A1%88%E4%BE%8B%E6%94%B6%E9%9B%86?node-id=0-1&p=f&t=xenOhWiTb6ZIrYhU-0
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。