把椅子上的萌犬 P 成貓貓,需要幾步?第一步,圈出狗狗。第二步,告訴 AI 你的需求。鼠標(biāo)一點(diǎn),齊活。
這位 AI P 圖大師,其實(shí)是位老朋友 ——OpenAI 風(fēng)靡全球的那位 DALL?E?,F(xiàn)在,它剛剛完成了“2.0 超進(jìn)化”。不僅新學(xué)了一手出神入化的 P 圖絕技,創(chuàng)作質(zhì)量也有了飛躍式的提升。
話不多說,直接看作品感受一下~ 這是 DALL?E 2 在“星云爆炸狀柯基頭”這一提示下的創(chuàng)作出來的畫作:
這幅薩爾瓦多?達(dá)利的畫像,是不是有點(diǎn)薩爾瓦多?達(dá)利內(nèi)味兒了?
跟初代 DALL?E 比起來,著實(shí)是畫質(zhì)與藝術(shù)感雙雙飛升了。
△ “日出時(shí)分安坐在田野里的狐貍,莫奈風(fēng)格”
所以,研究人員具體如何點(diǎn)亮了 DALL?E 的新技能點(diǎn)?
CLIP + 擴(kuò)散模型
DALL?E 此番進(jìn)化,簡單來說就是分辨率更高了,延遲更低了。此外,還有更新 2 大新功能:
首先,在更細(xì)粒度上實(shí)現(xiàn)文本 → 圖像功能。也就是說,DALL?E 2 可以根據(jù)自然語言提示進(jìn)行 P 圖。在 P 圖的過程中,還會(huì)考慮陰影、反射、紋理等元素的變化。比如在左圖標(biāo)“2”的位置 P 一個(gè)火烈鳥泳圈,DALL-E 2 會(huì)把水面倒影這種細(xì)節(jié)也處理到位。
其次,是可以在保留原作核心元素的基礎(chǔ)之上,賦予原作船新的風(fēng)格。并且生成畫面的畫質(zhì)是 DALL?E 1 的 4 倍,即從 256×256 提升到了 1024×1024。
具體的實(shí)現(xiàn)方法,用 OpenAI 官方的話來說,就是結(jié)合了 CLIP 和擴(kuò)散模型兩種技術(shù)的優(yōu)點(diǎn)。CLIP 是原版 DALL?E 功能實(shí)現(xiàn)的基礎(chǔ),是一個(gè)負(fù)責(zé)給圖像重排序的模型,其零樣本學(xué)習(xí)能力已經(jīng)在各種視覺和語言任務(wù)上大放異彩。而擴(kuò)散模型的特點(diǎn)在于,在犧牲多樣性的前提下,能大大提升生成圖像的逼真度。于是,OpenAI 的研究人員設(shè)計(jì)了這樣一種方案:
在這個(gè)名為 unCLIP 的架構(gòu)中,CLIP 文本嵌入首先會(huì)被喂給自回歸或擴(kuò)散先驗(yàn),以產(chǎn)生一個(gè)圖像嵌入。而后,這個(gè)嵌入會(huì)被用來調(diào)節(jié)擴(kuò)散編碼器,以生成最終的圖像。
OpenAI 解釋稱,DALL?E 能夠 get 圖像和用于描述畫面的文本之間的關(guān)系。其圖像的生成是在“擴(kuò)散”過程中完成的,可以理解為是從“一堆點(diǎn)”出發(fā),用越來越多的細(xì)節(jié)去把圖像填充完整。
研究人員將 DALL?E 2 與 DALL?E、GLIDE 等模型進(jìn)行了對(duì)比。
實(shí)驗(yàn)結(jié)果顯示,DALL?E 2 的圖像生成質(zhì)量與 GLIDE 相當(dāng),但 DALL?E 的生成結(jié)果更具多樣性。
目前,DALL?E 2 并未對(duì)公眾開放,不過如果你感興趣,可以在線注冊申請一發(fā)~
項(xiàng)目地址:
https://openai.com/dall-e-2/#demos
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。