給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

雷峰網(wǎng) 2022/4/9 11:11:38 責(zé)編：汪淼

評(píng)論：

大家還記得去年 1 月 OpenAI 發(fā)布的 120 億參數(shù)魔法模型 DALL?E 嗎？

當(dāng)時(shí)，DALL?E 的畫風(fēng)是這樣的：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

只要「閱讀」文本，DALL?E 就能根據(jù)文本的內(nèi)容「自動(dòng)」生成栩栩如生的大師級(jí)畫像。因此，當(dāng)時(shí)一經(jīng)發(fā)布，DALL?E 就火遍了 AI 圈，吸粉無(wú)數(shù)，也讓 Language-Vision（文本-視覺）方向又火了一把。

就在近日，時(shí)隔一年后，OpenAI 結(jié)合 CLIP，又發(fā)布了 DALL?E 的第二個(gè)版本 ——DALL?E 2.0！

相比 DALL?E 1.0，DALL?E 2.0 可以生成更真實(shí)和更準(zhǔn)確的畫像：綜合文本描述中給出的概念、屬性與風(fēng)格等三個(gè)元素，生成「現(xiàn)實(shí)主義」圖像與藝術(shù)作品！分辨率更是提高了 4 倍！

比如，當(dāng)提示文本中分別包含「概念」“An astronaut ”（一個(gè)宇航員）、「屬性」“riding a horse”（在騎一匹馬）和「風(fēng)格」“in a phtprealistic style”（超現(xiàn)實(shí)風(fēng)格）時(shí)：

文本提示：An astronaut + riding a horse + in a phtprealistic style（一個(gè)宇航員 + 騎馬 + 超現(xiàn)實(shí)風(fēng)格）

DALL?E 2 可以生成如下這些同時(shí)包含三種元素的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

在滿足三種給定元素的基礎(chǔ)上，它可是充分發(fā)揮了自己的「想象力」，不僅馬的姿態(tài)各不相同，而且給宇航員穿上了樣式各異的服裝，場(chǎng)景也是十分豐富，草地上、山頂上、星空中......

神不神奇！牛不牛！

讓我們來(lái)欣賞 DALL?2.0 的大師作品！

如果你想要變換文本中概念、屬性和風(fēng)格三個(gè)元素中的一個(gè)或多個(gè)，比如保留「概念」“一個(gè)宇航員”和「屬性」“在騎一匹馬”，而將超現(xiàn)實(shí)主義風(fēng)格替換為波普藝術(shù)家安迪?沃霍爾的風(fēng)格，DALL?E 2 也可以「輕松」轉(zhuǎn)換它的繪畫風(fēng)格：

文本提示：An astronaut + riding a horse + in the style of Andy Warhol （一個(gè)宇航員 + 在騎一匹馬 + 安迪?沃霍爾的風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本提示：An astronaut + riding a horse + as a pencil drawing（一個(gè)宇航員 + 在騎一匹馬 + 鉛繪風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本提示：An astronaut + lounging in a tropical resort in space + in a vaporwave style（一個(gè)宇航員 + 在太空熱帶度假勝悠哉地躺著 + 蒸汽波風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本提示：Teddy bears + mixing sparkling chemicals as mad scientists + as a 1990s Saturday morning cartoon（泰迪熊們 + 正在像瘋狂的科學(xué)家一樣混合著冒泡的化學(xué)物質(zhì) + 20 世紀(jì) 90 年代的周六早間卡通片風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本提示：Teddy bears+shopping for groceries+in the style of ukiyo-e（泰迪熊 + 購(gòu)買雜貨 + 浮世繪風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本提示：Teddy bears+shopping for groceries+in ancient Egypt（泰迪熊 + 購(gòu)買雜貨 + 古埃及風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本提示：A bowl of soup+that is a portal to another dimension+as digital art（一碗湯 + 通往另一個(gè)維度的門戶 + 數(shù)字藝術(shù)風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本提示：A bowl of soup+as a planet in the universe+as a 1960s poster（一碗湯 + 宇宙中的一個(gè)星球 + 1960 年代海報(bào)風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本提示：A bowl of soup+as a planet in the universe+as digital art（一碗湯 + 宇宙中的一個(gè)星球 + 數(shù)字藝術(shù)風(fēng)格）

DALL?E 2 生成的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

DALL?E 2.0 的其他功能

1、圖像編輯

DALL?E 2 可以根據(jù)自然語(yǔ)言描述的標(biāo)題對(duì)現(xiàn)有圖像進(jìn)行逼真的編輯，比如，在考慮陰影、反射和紋理的同時(shí)增加或刪除圖中的某個(gè)元素。示例如下：

文本描述的編輯需求：選擇一個(gè)位置在圖中添加火烈鳥。

原圖 vs. DALL?E 2 編輯后的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

文本描述的編輯需求：選擇一個(gè)位置在圖中添加柯基。

原圖 vs. DALL?E 2 編輯后的圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

2、風(fēng)格變體

DALL?E 2 可以拍攝一張圖片，然后根據(jù)原圖制作出同一個(gè)風(fēng)格的不同畫像。示例如下：

原圖 1：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

DALL?E 2 創(chuàng)造的同一風(fēng)格圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

原圖 2：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

DALL?E 2 創(chuàng)造的同一風(fēng)格圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

原圖 3：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

DALL?E 2 創(chuàng)造的同一風(fēng)格圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

原圖 4：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

DALL?E 2 創(chuàng)造的同一風(fēng)格圖像：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

對(duì)于 AI 從文本生成的圖像，我們非常看重的一點(diǎn)當(dāng)然是圖像的分辨率了，圖像的分辨率越高，像素?cái)?shù)量就越多，圖像也就越清晰和逼真。與 DALL?E 1 相比，DALL?E 2 的分辨率提高了 4 倍！

比如，對(duì)于同樣的文本提示：

文本提示：a painting of a fox sitting in a field at sunrise in the style of Claude Monet（一只狐貍坐在日出時(shí)的田野里 + 克勞德?莫奈風(fēng)格）

下面兩張圖分別是 DALL?E 1 和 DALL?E 2 所生成圖像的對(duì)比：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

對(duì)比之下，DALL?E 1 生成的圖像可以說(shuō)是很模糊了，甚至根本看不出「日出」在哪里，「狐貍」只顯露出它的頭部，「田野」也不太有田野的樣子，而且在整體風(fēng)格上與畫家莫奈的印象派風(fēng)格相去甚遠(yuǎn)。

而在 DALL?E 2 的魔法手筆下，圖像質(zhì)量顯著提高，「日出」和「田野」都很生動(dòng)，小狐貍端坐在草地上，姿態(tài)可愛。這幅畫作色彩更加豐富，使用了更多的復(fù)色，對(duì)光影的描繪更加接近莫奈的風(fēng)格。

總體來(lái)說(shuō)，相比 DALL?E 1.0，DALL?2 顯然能 hold 住元素更豐富、色彩更飽滿的圖像。不再是簡(jiǎn)單的單一物品描述，而是對(duì)一個(gè)場(chǎng)景的整體表達(dá)，故事更完整，想象力也更豐富！

更詳細(xì)的內(nèi)容，可以查看 DALL?E 2 的相關(guān)研究論文：

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

論文地址：https://cdn.openai.com/papers/dall-e-2.pdf

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

讓我們來(lái)欣賞 DALL?2.0 的大師作品！

DALL?E 2.0 的其他功能

相關(guān)文章

給出 3 個(gè)詞，AI 直接作畫！OpenAI 發(fā)布 DALL?E 2.0，掌握多種畫風(fēng)，分辨率提高 4 倍

讓我們來(lái)欣賞 DALL?2.0 的大師作品！