AI 圈,再次開卷圖像生成。
一連串進(jìn)展扎堆:8 月 21 日,Ideogram 正式推出 2.0 版本,聲稱文本渲染能力更強(qiáng)。
沒錯(cuò),就是那個(gè)成立于去年 8 月,由谷歌 AI 繪畫 4 大牛集體離職創(chuàng)業(yè)的項(xiàng)目,曾獲得過一眾 AI 大佬投資。
此番 Ideogram 還公開叫板 Flux,官方自信表示其人類評(píng)估明顯優(yōu)于 Flux Pro。
要知道,F(xiàn)lux 由 Stable Diffusion 原班人馬打造,最近正在因生成以假亂真的 TED 演講“照片”而走紅各大網(wǎng)絡(luò)。
除此之外,一周前,谷歌正式放出了 Imagen 3,在官方評(píng)估中,號(hào)稱表現(xiàn)優(yōu)于 DALL-E 3、Midjourney v6、Stable Diffusion 3 等一眾繪圖模型。
或許是受刺激了(doge),Midjourney 竟然也轉(zhuǎn)型了,在 8 月 22 日直接向所有用戶推出了免費(fèi)網(wǎng)頁(yè)版。
這下有好戲看了!既然大家都宣稱自己很強(qiáng),那我們不妨把大家拉到一桌,來搞個(gè)面對(duì)面 PK。
誰(shuí)是最強(qiáng)繪圖 AI?
先請(qǐng)出咱們的 4 位參賽選手(全部使用網(wǎng)頁(yè)版):
1 號(hào)選手:Ideogram 2.0。每天免費(fèi)有 10 積分,1 積分可以生成 4 張圖,每天最多生成 40 張圖;
2 號(hào)選手:Flux.1。黑森林官方在 Hugging Chat 提供了免費(fèi) demo(選 FLUX.1 Schnell 版本);
3 號(hào)選手:Imagen 3。在 Image FX 上可以免費(fèi)無(wú)限次使用;
4 號(hào)選手:Midjourney。免費(fèi)試用期一共只有生成 25 張圖的機(jī)會(huì);
下面正式進(jìn)入比賽環(huán)節(jié)。
黑猴子全翻車了
一上來,為了檢驗(yàn)這些國(guó)外 AI 是否理解中文提示詞,咱們也來蹭一波當(dāng)今頂流黑猴子的熱度。
prompt:游戲角色,一只猴子,身披盔甲,頭戴鳳羽金冠,手上拿著一根金箍棒,站在一座懸崖之上。
不出意外,意外發(fā)生了……
相信大家一眼都被 3 號(hào)的大紅叉給吸引了。沒錯(cuò),同一提示詞下,只有 3 號(hào) Imagen 3 拒絕了生成請(qǐng)求。
看到這兒,第一反應(yīng)是我們的提示詞是不是觸發(fā)了版權(quán)保護(hù)。于是先刪掉了提示詞中的“游戲角色”,結(jié)果還是提醒無(wú)法生成。
難道是谷歌 Imagen 3 不支持中文?于是又隨機(jī)換了一個(gè)更簡(jiǎn)單的提示詞,這下倒是有圖了。
只不過結(jié)果一整個(gè)大錯(cuò)誤,而且換了多個(gè)中文提示詞,最終都是一些毫不相關(guān)的紋路圖。看來谷歌 Imagen 3 確實(shí)對(duì)中文提示詞不 ok。
3 號(hào)落榜之后,再看其他幾位,也只有 1 號(hào) Ideogram 2.0 表現(xiàn)最佳。2 號(hào)倒還能看出國(guó)漫的影子,4 號(hào) Midjourney 則完全放飛自我了~(主打一個(gè)毫不相干)最后還是要表?yè)P(yáng)下 Ideogram 2.0,精準(zhǔn)命中了所有關(guān)鍵元素。
雖然不是本人心中想要的東西(想要黑神話),但提示詞還原度確實(shí)沒毛病。
是真人還是 AI?傻傻分不清楚
接下來進(jìn)入各位選手的舒適區(qū) —— 人像生成。
遙想當(dāng)年,Midjourney 以一張?zhí)炫_(tái)情侶合照火爆網(wǎng)絡(luò);眼下,F(xiàn)lux 更是以一組 TED 演講圖風(fēng)靡全網(wǎng)……
究竟誰(shuí)更勝一籌?答案馬上揭曉。
prompt:A young man with auburn hair, wearing a checkered shirt in teal and cream, captured with a 50mm lens for a vintage look. Rich colors, sharp focus, and a touch of retro charm.
一位紅褐色頭發(fā)的年輕男性,身著藍(lán)綠色奶油色方格襯衫,用 50mm 鏡頭捕捉復(fù)古風(fēng)格。色彩豐富,焦點(diǎn)清晰,帶有一絲復(fù)古魅力。
先單看 2 號(hào)和 4 號(hào),很明顯,Midjourney 贏了!
從細(xì)節(jié)上看,2 號(hào) Flux.1 稍有偏差,衣服顏色多了兩種,這在一水的藍(lán)綠格子襯衫中尤為突出。
另外,一上來我們還發(fā)現(xiàn)了 Imagen 3 獨(dú)有的一個(gè)小亮點(diǎn):在生成開始前圈出關(guān)鍵詞。
借著它完成的工作,我們正好可以檢驗(yàn)幾位選手對(duì)關(guān)鍵元素(藍(lán)綠色方格襯衫、50mm 鏡頭等)的還原程度。
可以看到,整體上幾位選手表現(xiàn)都不錯(cuò)(除了 2 號(hào)),還原度較高且都看向了鏡頭。而且,要不是這些都是本人親自用 AI 生成的,還真無(wú)法一下子辨認(rèn)與真人的區(qū)別。(汗顏)
最后悄咪咪說一句,4 號(hào)選手 Midjourney 顏值最高。
老大難:圖片顯示文字
成功騙過了所有人之后,是時(shí)候讓 AI 吃點(diǎn)苦頭了 —— 給圖片加文字。
這事兒一直都是個(gè)老大難,也成了檢驗(yàn) AI 生圖水平的標(biāo)準(zhǔn)之一。話不多說,直接讓幾位選手制作一塊精美的廣告牌。請(qǐng)各位看官老爺自行帶入甲方爸爸角色。
prompt:A horizontal brass sign reading ‘Festive Season’ in a stylish script, encircled by pine and holly on a dark wood backdrop, with a close-up focus on the golden lettering.
一塊水平黃銅標(biāo)牌,上面以時(shí)尚手寫體寫著’Festive Season’,周圍環(huán)繞著松枝和冬青,背景是深色木材,特寫鏡頭聚焦于金色字體。
一眼掃過,是不是都還不錯(cuò),好像都高度還原了提示詞?但是,一旦拿出甲方爸爸的犀利眼神,這 2 號(hào)可就藏不住了。注意看,2 號(hào) Flux.1 偷工減料了,單詞“Season”少了一個(gè)字母“S”。不過除了 2 號(hào),其他幾位還是不錯(cuò)滴,看來各家 AI 在文字渲染功能上都下功夫了。
所以接下來就是,蘿卜青菜各有所愛,大家憑個(gè)人喜好做選擇。(私心投給了 Midjourney)對(duì)了,1 號(hào) Ideogram 這次型號(hào)升級(jí)還特意拿“文字渲染”功能做宣傳了,大家不妨多試試。
參考麥當(dāng)勞,整點(diǎn) AI 廣告
最近,麥當(dāng)勞請(qǐng)了 11 個(gè) AI 美女為薯?xiàng)l瘋狂打 call,狠狠火了一把~ 其實(shí)原理也比較簡(jiǎn)單,無(wú)非是用 AI 生成不同角色宣傳薯?xiàng)l的圖片,再拼接成一個(gè)視頻。沒想到效果驚人,僅在推特一個(gè)平臺(tái),相關(guān)視頻就獲得了近千萬(wàn)瀏覽量。
掌握財(cái)富密碼后,咱們正式開干,身為中國(guó)人,AI 助農(nóng)高低得走起~
prompt:Against the backdrop of a cyberpunk-style metropolis, a girl is promoting organic agricultural products in her hands.
在賽博朋克風(fēng)格的都市背景下,一位女孩正宣傳著手中的有機(jī)農(nóng)產(chǎn)品。
很好,3 號(hào)選手再次“擺爛了”。不過這波著實(shí)令人費(fèi)解,提示詞既不是中文,也沒有明顯違禁的地方……
淘汰 3 號(hào)后,1 號(hào)選手 Ideogram 2.0 帶貨種類最為豐富,大白菜、西紅柿、紫甘藍(lán)等應(yīng)有盡有。而且它是唯一一個(gè)打出文字招牌來宣傳有機(jī)食品的,看得出來相當(dāng)賣力了~ 另外,細(xì)看還能發(fā)現(xiàn)只有 1 號(hào)在盡力模仿真人,而 2 號(hào)和 4 號(hào)則完全走上了二刺猿。
u1s1,如果參考麥麥的廣告風(fēng)格,這一次的短暫生成確實(shí)沒有達(dá)到理想效果。(希望更貼近真實(shí)一點(diǎn))但是,好在這幾個(gè) AI 工具目前都可以免費(fèi)用,多來幾次也不是不行,重點(diǎn)還是方法論。[doge]
別急著走,其實(shí)還有一個(gè)更靠譜的搞錢方法 —— 用 AI 輕松拿捏棚拍商業(yè)宣傳海報(bào),省下請(qǐng)攝影師、場(chǎng)地和后期的錢不香嘛。
A sleek lipstick tube gleams against a backdrop of sophistication, highlighting the rich pigment and smooth glide. Evoke luxury with sharp focus and a hint of shimmer.
一支光滑的口紅管在精致的背景前閃耀,突顯出濃郁的色澤和順滑的涂抹感。以銳利的焦點(diǎn)和一抹微光喚起奢華感。
考考大家,假如你要給身邊某位女性挑一只口紅,你會(huì)選哪只?(死亡考驗(yàn)來了)嘿嘿,所以有人選 4 號(hào)了嗎?雖然 4 號(hào) Midjourney 看起來灰常高級(jí),但這個(gè)黑色可能有點(diǎn)小眾了。(慎選)
除了它,接下來表現(xiàn)最好的是 3 號(hào) Imagen 3,底下絲絨布料襯托出奢華感,且最重要的是,口紅質(zhì)地很真實(shí)。對(duì)比之下,1 號(hào)和 2 號(hào)都顯得有點(diǎn)假,“塑料感”撲面而來。
因此這一局,整體來說 3 號(hào)選手獲勝。小結(jié)一下,整體而言 4 位選手表現(xiàn)都非常不錯(cuò)。中文提示詞下,黑馬選手 Ideogram 2.0 表現(xiàn)最好。
誰(shuí)是 Ideogram?
今年 2 月,Ideogram 推出了 1.0 版本,短短半年時(shí)間,它再次進(jìn)化上線了 2.0 版本。事實(shí)上,Ideogram 與谷歌可謂“沾親帶故”。成立于去年 8 月,創(chuàng)始團(tuán)隊(duì)中前 4 人都是谷歌文生圖研究 Imagen 論文作者。
CEO Mohammad Norouzi,論文共同一作,他在多倫多大學(xué)計(jì)算機(jī)科學(xué)博士就讀期間拿到了谷歌 ML 博士獎(jiǎng)學(xué)金。
畢業(yè)后他加入谷歌大腦工作了 7 年,職位也一路升至高級(jí)研究科學(xué)家,主要研究的就是生成模型。此外,他也是谷歌神經(jīng)機(jī)器翻譯團(tuán)隊(duì)的原始成員,Hinton 團(tuán)隊(duì)自監(jiān)督對(duì)比學(xué)習(xí)框架 SimCLR 的合著者。
CTO William Chan(陳俊樂),論文共同一作,他先后就讀于加拿大滑鐵盧大學(xué)、卡內(nèi)基梅隆大學(xué)。他 2012 年加入谷歌時(shí)先做的機(jī)器學(xué)習(xí)廣告工程,后轉(zhuǎn)到谷歌大腦作 NLP 研究。
聯(lián)合創(chuàng)始人 Jonathan Ho,博士畢業(yè)于 UC 伯克利,曾在 OpenAI 工作一年,后加入谷歌。他除了是 Imagen 論文的核心貢獻(xiàn)者,還是去噪擴(kuò)散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,這篇論文合著者中的 Pieter Abbeel 也是 Ideogram AI 的投資人。
聯(lián)合創(chuàng)始人 Chitwan Saharia,論文共同一作,本科畢業(yè)于孟買理工學(xué)院,2019 年加入谷歌,在谷歌主要負(fù)責(zé)領(lǐng)導(dǎo) image-to-image 擴(kuò)散模型的工作。
創(chuàng)始團(tuán)隊(duì)中的另外三人,Shayaan Abdullah 曾是 Twitter 的機(jī)器學(xué)習(xí)工程師,于去年 4 月離職,后加入 Ideogram AI。
Jacob Lu 為軟件工程師,加入 Ideogram 之前曾在亞馬遜等公司任職;Jenny Lei 是軟件工程實(shí)習(xí)生,加入 Ideogram AI 之前曾在谷歌實(shí)習(xí)。
可以看出,Ideogram 由頂級(jí)擴(kuò)散模型研究團(tuán)隊(duì)組成,自成立之初便獲得了資本青睞。
Ideogram 種子輪融資由 a16z 和 Index Ventures 領(lǐng)投,金額 1650 萬(wàn)美元(當(dāng)時(shí)約 1.2 億人民幣)。個(gè)人投資者中也不乏 Andrej Karpathy、強(qiáng)化學(xué)習(xí)大牛 Pieter Abbeel,GitHub 聯(lián)合創(chuàng)始人 Tom Preston-Werner 等。
另外,今年 2 月,多方消息傳出 Ideogram 進(jìn)行了新一輪融資。據(jù)稱成功籌集了 8000 萬(wàn)美元(約 57 億人民幣)A 輪融資,領(lǐng)投方為 Andreessen Horowitz,其他參與投資者包括 Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel。
看來有錢、有技術(shù)的 Ideogram 無(wú)疑又是 AI 生圖領(lǐng)域的一匹黑馬。
卷,繼續(xù)卷。
Ideogram 2.0 鏈接:
https://ideogram.ai/t/explore
Midjourney 鏈接:
https://www.midjourney.com/home
Flux 鏈接:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
Imagen3 鏈接:
https://aitestkitchen.withgoogle.com/tools/image-fx
參考鏈接:
[1]https://x.com/ideogram_ai/status/1826277550798278804
[2]https://ideogram.ai/launch
[3]https://x.com/AIandDesign/status/1826277963681370213
本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:一水
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。