設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DALL?E 這波超進(jìn)化,畫質(zhì)藝術(shù)感雙飛升,還學(xué)會(huì)了無痕 P 圖

量子位 2022/4/7 14:55:08 責(zé)編:瀟公子

把椅子上的萌犬 P 成貓貓,需要幾步?第一步,圈出狗狗。第二步,告訴 AI 你的需求。鼠標(biāo)一點(diǎn),齊活。

這位 AI P 圖大師,其實(shí)是位老朋友 ——OpenAI 風(fēng)靡全球的那位 DALL?E?,F(xiàn)在,它剛剛完成了“2.0 超進(jìn)化”。不僅新學(xué)了一手出神入化的 P 圖絕技,創(chuàng)作質(zhì)量也有了飛躍式的提升。

話不多說,直接看作品感受一下~ 這是 DALL?E 2 在“星云爆炸狀柯基頭”這一提示下的創(chuàng)作出來的畫作:

這幅薩爾瓦多?達(dá)利的畫像,是不是有點(diǎn)薩爾瓦多?達(dá)利內(nèi)味兒了?

跟初代 DALL?E 比起來,著實(shí)是畫質(zhì)與藝術(shù)感雙雙飛升了。

△ “日出時(shí)分安坐在田野里的狐貍,莫奈風(fēng)格”

所以,研究人員具體如何點(diǎn)亮了 DALL?E 的新技能點(diǎn)?

CLIP + 擴(kuò)散模型

DALL?E 此番進(jìn)化,簡單來說就是分辨率更高了,延遲更低了。此外,還有更新 2 大新功能:

首先,在更細(xì)粒度上實(shí)現(xiàn)文本 → 圖像功能。也就是說,DALL?E 2 可以根據(jù)自然語言提示進(jìn)行 P 圖。在 P 圖的過程中,還會(huì)考慮陰影、反射、紋理等元素的變化。比如在左圖標(biāo)“2”的位置 P 一個(gè)火烈鳥泳圈,DALL-E 2 會(huì)把水面倒影這種細(xì)節(jié)也處理到位。

其次,是可以在保留原作核心元素的基礎(chǔ)之上,賦予原作船新的風(fēng)格。并且生成畫面的畫質(zhì)是 DALL?E 1 的 4 倍,即從 256×256 提升到了 1024×1024。

具體的實(shí)現(xiàn)方法,用 OpenAI 官方的話來說,就是結(jié)合了 CLIP 和擴(kuò)散模型兩種技術(shù)的優(yōu)點(diǎn)。CLIP 是原版 DALL?E 功能實(shí)現(xiàn)的基礎(chǔ),是一個(gè)負(fù)責(zé)給圖像重排序的模型,其零樣本學(xué)習(xí)能力已經(jīng)在各種視覺和語言任務(wù)上大放異彩。而擴(kuò)散模型的特點(diǎn)在于,在犧牲多樣性的前提下,能大大提升生成圖像的逼真度。于是,OpenAI 的研究人員設(shè)計(jì)了這樣一種方案:

在這個(gè)名為 unCLIP 的架構(gòu)中,CLIP 文本嵌入首先會(huì)被喂給自回歸或擴(kuò)散先驗(yàn),以產(chǎn)生一個(gè)圖像嵌入。而后,這個(gè)嵌入會(huì)被用來調(diào)節(jié)擴(kuò)散編碼器,以生成最終的圖像。

OpenAI 解釋稱,DALL?E 能夠 get 圖像和用于描述畫面的文本之間的關(guān)系。其圖像的生成是在“擴(kuò)散”過程中完成的,可以理解為是從“一堆點(diǎn)”出發(fā),用越來越多的細(xì)節(jié)去把圖像填充完整。

研究人員將 DALL?E 2 與 DALL?E、GLIDE 等模型進(jìn)行了對(duì)比。

實(shí)驗(yàn)結(jié)果顯示,DALL?E 2 的圖像生成質(zhì)量與 GLIDE 相當(dāng),但 DALL?E 的生成結(jié)果更具多樣性。

目前,DALL?E 2 并未對(duì)公眾開放,不過如果你感興趣,可以在線注冊申請一發(fā)~

項(xiàng)目地址:

https://openai.com/dall-e-2/#demos

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,模型圖像

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知