設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Midjourney 地位不穩(wěn)?AI 繪圖又一黑馬出現(xiàn),附 4 款產(chǎn)品一手實測

量子位 2024/8/25 13:35:02 責編:遠洋

AI 圈,再次開卷圖像生成。

一連串進展扎堆:8 月 21 日,Ideogram 正式推出 2.0 版本,聲稱文本渲染能力更強。

沒錯,就是那個成立于去年 8 月,由谷歌 AI 繪畫 4 大牛集體離職創(chuàng)業(yè)的項目,曾獲得過一眾 AI 大佬投資。

此番 Ideogram 還公開叫板 Flux,官方自信表示其人類評估明顯優(yōu)于 Flux Pro。

要知道,F(xiàn)lux 由 Stable Diffusion 原班人馬打造,最近正在因生成以假亂真的 TED 演講“照片”而走紅各大網(wǎng)絡(luò)。

除此之外,一周前,谷歌正式放出了 Imagen 3,在官方評估中,號稱表現(xiàn)優(yōu)于 DALL-E 3、Midjourney v6、Stable Diffusion 3 等一眾繪圖模型。

或許是受刺激了(doge),Midjourney 竟然也轉(zhuǎn)型了,在 8 月 22 日直接向所有用戶推出了免費網(wǎng)頁版。

這下有好戲看了!既然大家都宣稱自己很強,那我們不妨把大家拉到一桌,來搞個面對面 PK。

誰是最強繪圖 AI?

先請出咱們的 4 位參賽選手(全部使用網(wǎng)頁版):

1 號選手:Ideogram 2.0。每天免費有 10 積分,1 積分可以生成 4 張圖,每天最多生成 40 張圖;

2 號選手:Flux.1。黑森林官方在 Hugging Chat 提供了免費 demo(選 FLUX.1 Schnell 版本);

3 號選手:Imagen 3。在 Image FX 上可以免費無限次使用;

4 號選手:Midjourney。免費試用期一共只有生成 25 張圖的機會;

下面正式進入比賽環(huán)節(jié)。

黑猴子全翻車了

一上來,為了檢驗這些國外 AI 是否理解中文提示詞,咱們也來蹭一波當今頂流黑猴子的熱度。

prompt:游戲角色,一只猴子,身披盔甲,頭戴鳳羽金冠,手上拿著一根金箍棒,站在一座懸崖之上。

不出意外,意外發(fā)生了……

相信大家一眼都被 3 號的大紅叉給吸引了。沒錯,同一提示詞下,只有 3 號 Imagen 3 拒絕了生成請求。

看到這兒,第一反應是我們的提示詞是不是觸發(fā)了版權(quán)保護。于是先刪掉了提示詞中的“游戲角色”,結(jié)果還是提醒無法生成。

難道是谷歌 Imagen 3 不支持中文?于是又隨機換了一個更簡單的提示詞,這下倒是有圖了。

只不過結(jié)果一整個大錯誤,而且換了多個中文提示詞,最終都是一些毫不相關(guān)的紋路圖??磥?strong>谷歌 Imagen 3 確實對中文提示詞不 ok。

3 號落榜之后,再看其他幾位,也只有 1 號 Ideogram 2.0 表現(xiàn)最佳。2 號倒還能看出國漫的影子,4 號 Midjourney 則完全放飛自我了~(主打一個毫不相干)最后還是要表揚下 Ideogram 2.0,精準命中了所有關(guān)鍵元素。

雖然不是本人心中想要的東西(想要黑神話),但提示詞還原度確實沒毛病。

是真人還是 AI?傻傻分不清楚

接下來進入各位選手的舒適區(qū) —— 人像生成

遙想當年,Midjourney 以一張?zhí)炫_情侶合照火爆網(wǎng)絡(luò);眼下,F(xiàn)lux 更是以一組 TED 演講圖風靡全網(wǎng)……

究竟誰更勝一籌?答案馬上揭曉。

prompt:A young man with auburn hair, wearing a checkered shirt in teal and cream, captured with a 50mm lens for a vintage look. Rich colors, sharp focus, and a touch of retro charm.

一位紅褐色頭發(fā)的年輕男性,身著藍綠色奶油色方格襯衫,用 50mm 鏡頭捕捉復古風格。色彩豐富,焦點清晰,帶有一絲復古魅力。

先單看 2 號和 4 號,很明顯,Midjourney 贏了!

從細節(jié)上看,2 號 Flux.1 稍有偏差,衣服顏色多了兩種,這在一水的藍綠格子襯衫中尤為突出。

另外,一上來我們還發(fā)現(xiàn)了 Imagen 3 獨有的一個小亮點:在生成開始前圈出關(guān)鍵詞。

借著它完成的工作,我們正好可以檢驗幾位選手對關(guān)鍵元素(藍綠色方格襯衫、50mm 鏡頭等)的還原程度。

可以看到,整體上幾位選手表現(xiàn)都不錯(除了 2 號),還原度較高且都看向了鏡頭。而且,要不是這些都是本人親自用 AI 生成的,還真無法一下子辨認與真人的區(qū)別。(汗顏)

最后悄咪咪說一句,4 號選手 Midjourney 顏值最高。

老大難:圖片顯示文字

成功騙過了所有人之后,是時候讓 AI 吃點苦頭了 —— 給圖片加文字。

這事兒一直都是個老大難,也成了檢驗 AI 生圖水平的標準之一。話不多說,直接讓幾位選手制作一塊精美的廣告牌。請各位看官老爺自行帶入甲方爸爸角色。

prompt:A horizontal brass sign reading ‘Festive Season’ in a stylish script, encircled by pine and holly on a dark wood backdrop, with a close-up focus on the golden lettering.

一塊水平黃銅標牌,上面以時尚手寫體寫著’Festive Season’,周圍環(huán)繞著松枝和冬青,背景是深色木材,特寫鏡頭聚焦于金色字體。

一眼掃過,是不是都還不錯,好像都高度還原了提示詞?但是,一旦拿出甲方爸爸的犀利眼神,這 2 號可就藏不住了。注意看,2 號 Flux.1 偷工減料了,單詞“Season”少了一個字母“S”。不過除了 2 號,其他幾位還是不錯滴,看來各家 AI 在文字渲染功能上都下功夫了。

所以接下來就是,蘿卜青菜各有所愛,大家憑個人喜好做選擇。(私心投給了 Midjourney)對了,1 號 Ideogram 這次型號升級還特意拿“文字渲染”功能做宣傳了,大家不妨多試試。

參考麥當勞,整點 AI 廣告

最近,麥當勞請了 11 個 AI 美女為薯條瘋狂打 call,狠狠火了一把~ 其實原理也比較簡單,無非是用 AI 生成不同角色宣傳薯條的圖片,再拼接成一個視頻。沒想到效果驚人,僅在推特一個平臺,相關(guān)視頻就獲得了近千萬瀏覽量。

掌握財富密碼后,咱們正式開干,身為中國人,AI 助農(nóng)高低得走起~

prompt:Against the backdrop of a cyberpunk-style metropolis, a girl is promoting organic agricultural products in her hands.

在賽博朋克風格的都市背景下,一位女孩正宣傳著手中的有機農(nóng)產(chǎn)品。

很好,3 號選手再次“擺爛了”。不過這波著實令人費解,提示詞既不是中文,也沒有明顯違禁的地方……

淘汰 3 號后,1 號選手 Ideogram 2.0 帶貨種類最為豐富,大白菜、西紅柿、紫甘藍等應有盡有。而且它是唯一一個打出文字招牌來宣傳有機食品的,看得出來相當賣力了~ 另外,細看還能發(fā)現(xiàn)只有 1 號在盡力模仿真人,而 2 號和 4 號則完全走上了二刺猿。

u1s1,如果參考麥麥的廣告風格,這一次的短暫生成確實沒有達到理想效果。(希望更貼近真實一點)但是,好在這幾個 AI 工具目前都可以免費用,多來幾次也不是不行,重點還是方法論。[doge]

別急著走,其實還有一個更靠譜的搞錢方法 —— 用 AI 輕松拿捏棚拍商業(yè)宣傳海報,省下請攝影師、場地和后期的錢不香嘛。

A sleek lipstick tube gleams against a backdrop of sophistication, highlighting the rich pigment and smooth glide. Evoke luxury with sharp focus and a hint of shimmer.

一支光滑的口紅管在精致的背景前閃耀,突顯出濃郁的色澤和順滑的涂抹感。以銳利的焦點和一抹微光喚起奢華感。

考考大家,假如你要給身邊某位女性挑一只口紅,你會選哪只?(死亡考驗來了)嘿嘿,所以有人選 4 號了嗎?雖然 4 號 Midjourney 看起來灰常高級,但這個黑色可能有點小眾了。(慎選)

除了它,接下來表現(xiàn)最好的是 3 號 Imagen 3,底下絲絨布料襯托出奢華感,且最重要的是,口紅質(zhì)地很真實。對比之下,1 號和 2 號都顯得有點假,“塑料感”撲面而來。

因此這一局,整體來說 3 號選手獲勝。小結(jié)一下,整體而言 4 位選手表現(xiàn)都非常不錯。中文提示詞下,黑馬選手 Ideogram 2.0 表現(xiàn)最好。

誰是 Ideogram?

今年 2 月,Ideogram 推出了 1.0 版本,短短半年時間,它再次進化上線了 2.0 版本。事實上,Ideogram 與谷歌可謂“沾親帶故”。成立于去年 8 月,創(chuàng)始團隊中前 4 人都是谷歌文生圖研究 Imagen 論文作者

CEO Mohammad Norouzi,論文共同一作,他在多倫多大學計算機科學博士就讀期間拿到了谷歌 ML 博士獎學金。

畢業(yè)后他加入谷歌大腦工作了 7 年,職位也一路升至高級研究科學家,主要研究的就是生成模型。此外,他也是谷歌神經(jīng)機器翻譯團隊的原始成員,Hinton 團隊自監(jiān)督對比學習框架 SimCLR 的合著者。

CTO William Chan(陳俊樂),論文共同一作,他先后就讀于加拿大滑鐵盧大學、卡內(nèi)基梅隆大學。他 2012 年加入谷歌時先做的機器學習廣告工程,后轉(zhuǎn)到谷歌大腦作 NLP 研究。

聯(lián)合創(chuàng)始人 Jonathan Ho,博士畢業(yè)于 UC 伯克利,曾在 OpenAI 工作一年,后加入谷歌。他除了是 Imagen 論文的核心貢獻者,還是去噪擴散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,這篇論文合著者中的 Pieter Abbeel 也是 Ideogram AI 的投資人。

聯(lián)合創(chuàng)始人 Chitwan Saharia,論文共同一作,本科畢業(yè)于孟買理工學院,2019 年加入谷歌,在谷歌主要負責領(lǐng)導 image-to-image 擴散模型的工作。

創(chuàng)始團隊中的另外三人,Shayaan Abdullah 曾是 Twitter 的機器學習工程師,于去年 4 月離職,后加入 Ideogram AI。

Jacob Lu 為軟件工程師,加入 Ideogram 之前曾在亞馬遜等公司任職;Jenny Lei 是軟件工程實習生,加入 Ideogram AI 之前曾在谷歌實習。

可以看出,Ideogram 由頂級擴散模型研究團隊組成,自成立之初便獲得了資本青睞。

Ideogram 種子輪融資由 a16zIndex Ventures 領(lǐng)投,金額 1650 萬美元(當時約 1.2 億人民幣)。個人投資者中也不乏 Andrej Karpathy、強化學習大牛 Pieter Abbeel,GitHub 聯(lián)合創(chuàng)始人 Tom Preston-Werner 等。

另外,今年 2 月,多方消息傳出 Ideogram 進行了新一輪融資。據(jù)稱成功籌集了 8000 萬美元(約 57 億人民幣)A 輪融資,領(lǐng)投方為 Andreessen Horowitz,其他參與投資者包括 Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel。

看來有錢、有技術(shù)的 Ideogram 無疑又是 AI 生圖領(lǐng)域的一匹黑馬。

卷,繼續(xù)卷。

Ideogram 2.0 鏈接:

https://ideogram.ai/t/explore

Midjourney 鏈接:

https://www.midjourney.com/home

Flux 鏈接:

https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell

Imagen3 鏈接:

https://aitestkitchen.withgoogle.com/tools/image-fx

參考鏈接:

  • [1]https://x.com/ideogram_ai/status/1826277550798278804

  • [2]https://ideogram.ai/launch

  • [3]https://x.com/AIandDesign/status/1826277963681370213

本文來自微信公眾號:量子位(ID:QbitAI),作者:一水

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:IdeogramAI文生圖,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知