首頁 > 科學(xué)探索>科技前沿

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

新智元 2023/3/20 19:19:11 責(zé)編：夢澤

評論：

趁我們不注意，AI 畫手一直在悄悄迭代，最近新推出的 Stable Diffusion Reimagine 和 Midjourney v5 功能如此強(qiáng)大，不僅要淘汰人類畫師，連提示工程師的飯碗怕是都要丟了。

這次，人類畫手是真要失業(yè)了。

你敢相信，這張電影劇照一樣的圖片，居然是 AI 畫的？

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

Midjourney v5 生成的光影和皮膚效果

更邪乎的是，AI 畫手還會自己動腦子。

最近新出的 Stable Diffusion Reimagine，只要你給它一張圖，它就會無限開發(fā)自己的想象力。你要多少版，它就給你生成多少版。

有了這個(gè) AI，無論要求多奇葩，要改多少次，甲方爸爸想要的方案，設(shè)計(jì)師和畫手幾分鐘就甩給他。

logo 放大的同時(shí)能不能縮小一點(diǎn)？改！

想要五彩斑斕的黑？改！

就是這么氣定神閑，游刃有余。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

唯一要擔(dān)心的就是，千萬別讓甲方爸爸知道……

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

AI 學(xué)會想象，人類連 prompt 的工作也要丟了？

Stable Diffusion 這個(gè) AI 畫圖工具，咱們都很熟悉了。

昨天，Stability AI 又曝出一個(gè)震撼消息：它把 Stable Diffusion 大大改進(jìn)了一把。

這次新推出的產(chǎn)品，叫做 Stable Diffusion Reimagine。

敢叫 Reimagine，聽起來就很震撼。

沒錯(cuò)，現(xiàn)在你只要上傳一張圖片，SDR 就可以根據(jù)這個(gè)圖片創(chuàng)作無數(shù)張新圖。

而且它是真的想象，真的創(chuàng)作，并不是照抄原始圖片里的面孔或物體，而是根據(jù)原始圖像的靈感，重新創(chuàng)作新圖。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

體驗(yàn)地址：https://clipdrop.co/ stable-diffusion-reimagine

我們都知道，在以往的 AI 作圖工具中，prompt 的質(zhì)量，往往決定著你能畫出圖片的上限。

很多人說，會不會 prompt，將成為使用 AI 的庸人和天才的分水嶺。同樣，提示工程師也把 prompt 視為自己打開 AI 大獎的秘密武器。

去年在科羅拉多州博覽會藝術(shù)比賽的獲獎?wù)?、《太空歌劇院》的?chuàng)作者，就拒絕分享出自己在 Midjourney 所用的提示。據(jù)說，他花了 80 多個(gè)小時(shí)，在 900 次迭代中，才完成了這幅畫作。

而現(xiàn)在，不需要多復(fù)雜的 prompt，只需要把一張圖片丟給 AI，算法就可以創(chuàng)造出我們想要的無窮多變化。

輕點(diǎn)一下鼠標(biāo)，你的臥室立馬大變樣。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

技術(shù)原理

這個(gè)全新的 Stable Diffusion Reimagine，是基于 stability.ai 創(chuàng)造的一種新算法。

經(jīng)典的 Stable Diffusion 模型，都是被訓(xùn)練成以文本輸入為條件。

而 Reimagine 中，用一個(gè)圖像編碼器取代了原來的文本編碼器。不是根據(jù)文本輸入來生成圖像，而是從圖像中生成圖像。在編碼器通過算法后，還加入一些噪音，以產(chǎn)生變化。

這種方法產(chǎn)生了外觀相似、但細(xì)節(jié)和構(gòu)圖不同的圖像。

而與圖像到圖像的算法不同，原始圖像首先就被完全編碼，這意味著生成器并未使用來自原始圖像的任何一個(gè)像素。

而且，Clipdrop 還能提升圖片的分辨率。用戶只需上傳一張小圖，就能獲得一張至少有兩倍細(xì)節(jié)水平的圖片。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

據(jù)悉，Stable Diffusion Reimagine 的模型很快就會在 StabilityAI 的 GitHub 上開源了。

發(fā)揮不穩(wěn)

當(dāng)然，Reimagine 也存在一定的局限性。

最大的缺陷就是，它不會根據(jù)原始的 prompt 創(chuàng)作圖像。

另外呢，它的發(fā)揮也沒有那么穩(wěn)定，有時(shí)很驚艷，有時(shí)會比較拉跨。

另外，雖然 Stability AI 在模型中安裝了一個(gè)過濾器，阻擋不適當(dāng)?shù)恼埱?，但它也不是萬能的。

另外，AI 模型都無法避免的偏見問題，Reimagine 也不能避免，Stability AI 目前正在收集用戶的反饋，希望能減輕偏見。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

網(wǎng)友已玩瘋

而網(wǎng)友們當(dāng)然已經(jīng)迫不及待地玩上了。

左上角（或最左側(cè)）是原始文件，而其他圖片都是受原始文件啟發(fā)后，「重新想象」的創(chuàng)作。

從分享的作品上來看，效果最為突出的確實(shí)是設(shè)計(jì)：

Stable Diffusion Reimagine 可以在不改變整體氛圍的情況下，重新設(shè)計(jì)整個(gè)場景。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

看得出來，Stable Diffusion Reimagine 在手繪作品的處理上，表現(xiàn)得非常出色。

這位網(wǎng)友表示，它對「感覺」理解得相當(dāng)好，自己很喜歡這種自由發(fā)揮的效果。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

此外，Stable Diffusion Reimagine 對二次元角色拿捏得也不錯(cuò)。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

在真實(shí)場景中，有網(wǎng)友在嘗試了自己的自拍之后大贊稱：「我打賭你們絕對猜不到哪張照片是真的?！?/p>

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

然而，小編在嘗試一些「名場面」時(shí)，結(jié)果卻是下面這樣的……

首先輸入《九品芝麻官》的「我全都要」：

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

然后讓 Stable Diffusion「重新想象」一下：（這結(jié)果多少有些殺馬特在里面）

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

換成「威爾?史密斯在奧斯卡現(xiàn)場怒扇克里斯洛克耳光」試試？

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

啊，這……

或許是我們的打開方式不對，畢竟，Stability AI 的主要目的幫助設(shè)計(jì)師們只用一張照片就能獲得類似的備選方案。

那么，我們就用它們給出的案例來做個(gè)測試吧。

注意看，下面是官方的演示：

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

而下面這個(gè)是同一張圖的「復(fù)現(xiàn)」效果……

顯然，Reimagine 生成的圖片看起來遠(yuǎn)沒有那么逼真，而且比例也很奇怪。

在進(jìn)行了數(shù)次嘗試之后，我們?nèi)匀粵]有得到一張看起來完全真實(shí)的圖像。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

對此，有網(wǎng)友在嘗試之后也表示，Stable Diffusion Reimagin 生成圖片的質(zhì)量跟 Midjourney 的差距還是很大的。

因?yàn)?Midjourney 可以通過社區(qū)生成的大量反饋進(jìn)行優(yōu)化，而這一點(diǎn)是 Stable Diffusion 難以比擬的。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

AI 畫手終于會畫手了

而另一強(qiáng)大的 AI 畫手 ——Midjourney，當(dāng)然也沒閑著。

本周三，Midjourney 宣布：我們已經(jīng)升級到第 5 版了！

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

比起之前的版本，V5 版的圖像質(zhì)量更高、輸出更多樣化、有更廣泛的風(fēng)格、支持無縫紋理、有更寬的縱橫比、有更好的圖像提示，以及更寬的動態(tài)范圍……

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

Midjourney V5 的效果怎么說呢，AI 藝術(shù)家們給出的評價(jià)是 ——「太逼真，太完美，以至于令人毛骨悚然?！?/p>

「仿佛一個(gè)近視眼忽然戴上了眼鏡 —— 畫面忽然間就變成 4k 的了?！?/p>

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

網(wǎng)友評價(jià)：因?yàn)槊看味继昝溃@艷，到最后多巴胺都停止分泌了

可以看出，Midjourney 自 2022 年 3 月首次面世以來，在圖像細(xì)節(jié)上一直在不停進(jìn)步。去年 8 月推出了第 3 版，11 月推出了第 4 版，今年 3 月就推出了第 5 版。

輸入這樣一個(gè) prompt「一個(gè)肌肉發(fā)達(dá)的野蠻人在 CRT 電視機(jī)旁手持武器、電影、8K、演播室照明」，v3、v4、v5 生成的圖像依次如下 ——

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

Midjourney v3（左）、v4（中）和 v5（右）

但最驚艷的提升，還是對人手的處理。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

nice！

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

眾所周知，Midjourney、Stable Diffusion 和 DALL-E 等模型，都經(jīng)過了數(shù)百萬人類藝術(shù)家作品的訓(xùn)練。

為了構(gòu)建 LAION-5B 數(shù)據(jù)集，AI 研究者指導(dǎo)的機(jī)器人爬取了數(shù)十億個(gè)網(wǎng)站，包括 DeviantArt、ArtStation、Pinterest、Getty Images 等的大型圖像庫，并收集了數(shù)百萬張照片。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

然而即便如此，AI 畫手依然沒學(xué)會畫手。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

即便是人和場景都已經(jīng)達(dá)到真假難辨的程度，只要放大手部，基本就是一秒破功。

網(wǎng)友們紛紛表示，那些從不露手的「美女自拍」，多半就是 AI 干的了。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

這是為什么呢？

Stability AI 的解釋是，在 AI 數(shù)據(jù)集中，人類的手不如面部顯著；手在原始圖像中往往很小，很少以大的形式出現(xiàn)。

而佛羅里達(dá)大學(xué) AI 和藝術(shù)教授 Amelia Winger-Bearskin 的解釋是 AI 們并不能真正理解「手」是什么，不理解它在解剖學(xué)上與人體有什么關(guān)系。

而 Wieland 發(fā)現(xiàn)，Midjourney v5 在大多數(shù)時(shí)候，都能畫出 5 個(gè)手指的手，而不是 7 到 10 個(gè)指頭的。

而 AI 會畫手之后，網(wǎng)上出現(xiàn)的任何照片，都真假莫辨了。

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

如果非要說 Midjourney V5 有什么缺點(diǎn)，大概就是太過逼真和完美，也就讓我們喪失了那種多次嘗試后找到最佳結(jié)果的快感。

（昨天試了多次終于用文心一言畫出完美林黛玉的小編表示，非常贊同）

這就是老虎機(jī)效應(yīng)（near-miss）—— 就差那么一點(diǎn)兒，才是讓我們繼續(xù)玩下去的動力。

參考資料：

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/
https://stability.ai/blog/stable-diffusion-reimagine

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

AI 學(xué)會想象，人類連 prompt 的工作也要丟了？

技術(shù)原理

發(fā)揮不穩(wěn)

網(wǎng)友已玩瘋

AI 畫手終于會畫手了

相關(guān)文章

AI 畫手會畫手了，Stable Diffusion 學(xué)會想象，卷趴人類提示工程師

AI 學(xué)會想象，人類連 prompt 的工作也要丟了？