【新智元導(dǎo)讀】OpenAI 作圖神器 DALL?E 3 內(nèi)測開啟,網(wǎng)友紛紛上手實測后,感慨強到令人發(fā)指。文生圖從此告別「提示詞時代」?
一直以來,Midjourney 橫掃設(shè)計界,效果驚艷,讓許多網(wǎng)友驚呼將淘汰一波打工人。
如今,OpenAI 官宣了新一代作圖模型 ——DALL?E 3,還將其與 ChatGPT 合并,畫作細膩度令人發(fā)指。
甚至,不用 prompt,它能準確還原細節(jié),為圖片配上文字。
DALL?E 3 的實力究竟如何?真的可以挑戰(zhàn) Midjourney 嗎?
現(xiàn)在,已經(jīng)拿到內(nèi)測資格的網(wǎng)友們,紛紛來了一大波實測。
一起來看看吧。
網(wǎng)友實測
OpenAI 科學(xué)家 Karpathy 體驗了一把 DALL?E 3+pika_labs 生成動畫風格的案例。
他隨意找出一篇 WSJ 文章,「The New Face of Nuclear Energy Is Miss America」,將里面部分文字粘貼 DALL?E 3,然后生成相關(guān)的圖片。
最后再用 pika_labs 生圖工具,讓它動起來。
也有網(wǎng)友用同樣的方法,做了一個示例。
首先讓 ChatGPT 預(yù)測未來一年的一個重要新聞標題。
將該標題粘貼到 DALL?E 3 中,創(chuàng)建一幅插圖。
使用插圖和 /animate 參數(shù)提示 @pika_labs?!敢庀氩坏降耐黄疲嚎茖W(xué)家用革命性技術(shù)逆轉(zhuǎn)氣候變化影響;一夜之間恢復(fù)極地冰川!」
通過結(jié)合 @OpenAI 和 @pika_labs 的力量,你現(xiàn)在已經(jīng)在短短幾分鐘內(nèi)預(yù)測了未來的重大新聞,并為其繪制了插圖和動畫!
多輪對話,50 個物體,一圖全包
一位 AI 繪畫界的資深老兵提前拿到了 DALL?E 3 的測試資格,他分享了一個視頻,記錄了自己實測的體驗。
他還按照 Reddit 網(wǎng)友給他的創(chuàng)意,發(fā)推描述了一個對 DALL?E 3 的能力進行測試的具體用例。
首先,他先讓 ChatGPT 生成了一個包含 50 個日常生活物體的清單。讓后讓結(jié)合了 DALL?E 3 的 ChatGPT 把這 50 個物件畫到一張圖里。
于是 ChatGPT 自己生成了一個文生圖的 Prompt,讓 DALL?E 3 畫出了一個包含 50 個日常生活中常見物體的圖片。
可以看出來,DALL?E 3 對于物體的的認知非常的準確。
大家要是感興趣的話可以對照提示詞一個一個檢查一下這些物體它畫對沒有。
然后這位網(wǎng)友讓 ChatGPT 畫一幅畫,內(nèi)容是一位沖浪者拿著這 50 個東西在奮力沖浪的樣子。
于是 ChatGPT 自動生成了一個 Prompt,把網(wǎng)友要求的圖片描述得更具體。然后創(chuàng)作出了一幅畫。
這位網(wǎng)友自己評論到「我覺得唯一不太好地方是,Prompt 里說的稍微有點恐慌的表情,但實際上是恐慌得不行的表情」
然后他又讓 ChatGPT 把角度調(diào)低一點再生成一張圖。
ChatGPT 就又自動生成了一個 Prompt,把描述修改為「一張從靠近水面的低視角拍攝的照片,一名西班牙老年婦女沖浪。沖浪者與這 50 個物體奮力搏斗」
針對第二次生成的「老奶奶沖浪圖」,有網(wǎng)友評論到,好像自行車有點太多了,而且有些東西在第一張圖里并沒有出現(xiàn)。
網(wǎng)友說到,如果 DALL?E 3 能用第一張圖中的某個物品來作為平衡桿,而不是自己創(chuàng)造一個桿子的話,基本上圖像設(shè)計師就可以消失了...
對比 Midjourney:ChatGPT+DALL?E 3 也許將重塑「文生圖」領(lǐng)域的格局
但是從這位網(wǎng)友分享的內(nèi)部實測的效果來看,與 ChatGPT 結(jié)合起來的 DALL?E 3 最明顯的特點就是:
大大降低了用戶使用文生圖的門檻!
因為不論是 Midjourney 還是開源的 Stable Diffusion,如果用戶有了一個想法,想要做一張圖,必須要通過自己的經(jīng)驗將自己腦中的想法轉(zhuǎn)化成一個描述很具體的 Prompt,才能得到自己想要的圖片。
但是當文生圖的 DALL?E 3 和 ChatGPT 結(jié)合起來之后,ChatGPT 卻可以作為一個「文生圖提示詞工程師」,幫助用戶根據(jù)自己的一個簡單的想法來創(chuàng)作提示詞,然后生成圖片。
而 ChatGPT 本身自帶的多回合對話的能力,能讓用戶反復(fù)通過自然語言去和 DALL?E 3 溝通,告訴它自己到底需要什么樣的圖片。
從而更加精準地控制 DALL?E 3 生成的結(jié)果。
讓我們再回過頭來對比一下 Midjourney 從 5.0 版本以來推出的更新。
不論是「Zoom Out 外畫」,還是「Pan 上下左右平移」,甚至是經(jīng)典的 4 選一模式。
幾乎 Midjourney 從 5.0 之后的所有的更新,如果從一個更加宏觀的角度來看,都是通過添加不同的功能性按鈕,讓用戶能夠按照自己的想法來命令 Midjourney 生成自己想要的圖片,從而對抗 AI 生圖的一個本質(zhì)特點 —— 隨機性。
但是不論 Midjourney 增加多少個實用的功能性按鈕,用戶始終要面對的一個問題是:
需要不停地學(xué)習(xí)新按鈕的使用方法,再結(jié)合自己腦中的理想畫面,自己「努力創(chuàng)作」,才能得到自己理想的結(jié)果。
而如果用戶對理想圖片的效果要求過于嚴格,往往要試驗很多次,才能得到自己滿意的作品。
但是 OpenAI 卻采用了一個更加「AI」的方法來解決這個問題 —— 用 AI 來生成 Prompt,控制繪圖 AI。
借助 GPT-4 的強大理解能力和語言生成能力,用戶不用再去學(xué)習(xí)和等待 Midjourney 更新的一個個不同新功能,只要用自己的語言,不停地和 DALL?E 3 描述自己要什么,就能輕松獲得自己腦中的理想圖片。
同樣,也許這就是 OpenAI 在不同方向做了那么多的 AI 產(chǎn)品之后,直到采用大語言模型做出了 ChatGPT 才成為了 AI 圈中的第一個破圈的「殺手應(yīng)用」本質(zhì)原因:
語言是承載人類智能的「最大公約數(shù)」。
只要牢牢抓住語言這個切入點,AI 應(yīng)用就能直擊用戶的心靈,讓用戶產(chǎn)生「你怎么這么懂我」的體驗。
也許,DALL?E 3 推出以后,Midjourney 要好好想想自己未來需要做什么,才能吸引更多的用戶繼續(xù)使用自己的服務(wù)了。
說了那么多,針對「50 個物品挑戰(zhàn)」,我們來看看 Midjourney 的效果怎么樣。
這是利用第一張圖的 Prompt 生成的 50 個物品的結(jié)果。
可以看出,這 50 個物品的效果圖,Midjourney 在渲染的精細度和擬真程度上來看,還是非常有優(yōu)勢的。
如果用戶想要「照片級效果」的圖片,Midjourney 依然是更好的選擇。
但是第二步,從理解用戶目標的角度,Midjourney 就出現(xiàn)了一些問題。
畢竟 Prompt 是 ChatGPT 專門針對 DALL?E 3 定制生成的,可能用在 Midjourney 上效果就不太理想了。
這也就進一步凸顯出 10 月份 DALL?E 3 推出之后,它真正的優(yōu)勢就是:
對于高水平的用戶,更懂用戶的需求,對于新手,使用門檻大大降低。
但是用更新過的「老太太沖浪」圖的 Prompt,Midjourney 就心領(lǐng)神會,生成的效果非常不錯。
而且從細節(jié)和人物的神態(tài)的豐富程度上來說,更新了這么多版的 Midjourney,還是非常有優(yōu)勢的。
只是不知道為啥,4 張圖給老太太都加上了輪椅。
25 回合,只有你想不到的「悲傷蛙」
還有網(wǎng)友讓 DALL?E 3 生成「悲傷蛙」Pepe,而且每次在提示詞中添加「罕見」(more rare)。
于是,得到的悲傷蛙,竟有你想不到的樣子。
提示:「make it more rare」
提示:「even rarer」
提示:「these aren't rare enough, go farther」
提示:「yes, keep going」
提示:「push it further, more rare」
提示:「lose all assumptions and just create. don't box yourself in」
提示:「you're not listening, you need to forget all convention」
提示:「yes! more rare!」
提示:「more rare」
提示:「go further, channel your subconcious」
提示:「get weirder, get rarer, get strange」
提示:「is that all you can do」
提示:「my god. keep going」
提示:「don't get stuck with one idea, you're just being weird for the sake of being weird」
提示:「MORE RARE!」
提示:「continue」
提示:「forget everything you've done so far and just try to be original」
提示:「more rare. more rare. more rare」
提示:「i don't believe this is all you can do, more rare」
提示:「we're almost there. go rarer. go further than anyone's ever gone」
提示:「lose all assumptions. clear your mind. just create.」
提示:「yes! that's incredible. continue」
提示:「noo! you've returned to convention! go rarer!」
提示:「this is your last one, make it count」
經(jīng)過層層推進,DALL?E 3 多輪對話功能將使圖像生成功能更加強大。這簡直就是「圖像的人類反饋強化學(xué)習(xí)」(RLHF)!我迫不及待地想擁有它!
以上,你最喜歡的是哪個?
再來看一些網(wǎng)友實測。
沙灘熱浪小企鵝
叢林中的現(xiàn)代房屋,斯瓦希里建筑。
蜂鳥的電影渲染圖。
Midjourney V6 要反擊
英偉達高級科學(xué)家 Jim Fan 分析了 DALL?E 3 一旦部署,將比 Midjourney 以更快速度改進的原因:
1. 多輪對話是收集人類反饋的絕佳 UI。
人們會用語言解釋生成的圖像有什么問題,為每個優(yōu)化給出非常細粒度的注釋。這個聊天日志原生兼容多模態(tài) LLM 的訓(xùn)練集。GPT-4 的視覺能力(圖像-> 內(nèi)部表示)也可以用非常相同的數(shù)據(jù)來提高。
2. 算法效率高得多。
Midjourney 基本上忽略了版權(quán)問題,并且旋轉(zhuǎn)數(shù)據(jù)飛輪的時間要長得多,這意味著他們可能有比 OpenAI 更大的數(shù)據(jù)集可以使用。
然而質(zhì)量仍然相形見絀。OpenAI 擁有比標準擴散堆棧更具數(shù)據(jù)效率的新算法(比如「一致性模型」)。每額外單位訓(xùn)練數(shù)據(jù)的模型改進是優(yōu)越的。這不僅僅是工程。
論文地址:https://arxiv.org/ abs / 2303.01469
3. 生態(tài)系統(tǒng),與 ChatGPT 集成是「殺手級」的舉措。
將現(xiàn)有的拼圖塊添加到 DALL?E 3 中幾乎是微不足道的,例如 Code Interpreter 和 Browser。想要應(yīng)用過濾器嗎?只需調(diào)用 OpenCV API 而不是運行模型。想要參考圖像嗎?調(diào)用搜索插件來模擬 Bard(Google Lens integration)。
4. 現(xiàn)有用戶群:Midjourney 有 16M 用戶,ChatGPT 有 100M。
分發(fā)不是問題。正如 @nickfloats 所說,是時候擺脫 Discord!這是一個如此笨重,且對初學(xué)者不友好的用戶界面。
馬斯克表示,Midjourney 也將在近日揭曉大事!
的確,根據(jù)網(wǎng)友爆料,Midjourney 最新版本 V6 也將在接下來 3 個月內(nèi)亮相。
首席執(zhí)行官 David Holz 表示,從 Midjourney 當前 V5 到 V6 的飛躍,將大于從 V4 到 V5 的飛躍。
對于 V6,Midjourney 能夠更好地理解文本,并更好地還原語言措辭中的細節(jié)。
Holz 樂觀地表示,比起 DALL?E 3,Midjourney 將繼續(xù)提供最高的畫質(zhì)。
DALL?E 3 和 Midjourney v5 之間的比較表明,前者在畫質(zhì)方面并沒有那么領(lǐng)先,但它確實更好地遵循提示,并且可以渲染文本。
另外,據(jù)稱 Midjourney 3D 模型將在未來 6 個月內(nèi)推出。
https://twitter.com/karpathy/status/1705741982482747551
https://twitter.com/CitizenPlain/status/1705248617131291032
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。