Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

新智元 2023/4/18 11:45:14 責(zé)編：夢(mèng)澤

評(píng)論：

開(kāi)源、免費(fèi)的 Stable Diffusion 就能達(dá)到 Midjourney 水平！

自從 Midjourney 發(fā)布 v5 之后，在生成圖像的人物真實(shí)程度、手指細(xì)節(jié)等方面都有了顯著改善，并且在 prompt 理解的準(zhǔn)確性、審美多樣性和語(yǔ)言理解方面也都取得了進(jìn)步。

相比之下，Stable Diffusion 雖然免費(fèi)、開(kāi)源，但每次都要寫一大長(zhǎng)串的 prompt，想生成高質(zhì)量的圖像全靠多次抽卡。

最近 Stability AI 的官宣，正在研發(fā)的 Stable Diffusion XL 開(kāi)始面向公眾測(cè)試，目前可以在 Clipdrop 平臺(tái)免費(fèi)試用。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

試用鏈接：https://clipdrop.co/ stable-diffusion

Stability AI 的創(chuàng)始人兼首席執(zhí)行官 Emad Mostaque 表示，目前該模型仍然處于訓(xùn)練階段，等參數(shù)穩(wěn)定后將會(huì)開(kāi)源；SD-XL 在「握手」等圖像細(xì)節(jié)方面會(huì)表現(xiàn)更好，幾乎完全可控。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

Stable Diffusion XL 也并不是最終發(fā)布版的名字，并且也并非是 v3，因?yàn)?SD-XL 的架構(gòu)和 SD-v2 系列的模型架構(gòu)非常相似。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

簡(jiǎn)約的家庭健身房，橡膠地板，壁掛式電視，舉重凳，藥球，啞鈴，瑜伽墊，高科技設(shè)備，高細(xì)節(jié)，組織和效率

下面幾張 SD-XL 官方發(fā)布的例圖，可以看出圖像的質(zhì)量已經(jīng)非常能打了。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

不過(guò)有時(shí)候 less 并不代表 more，有網(wǎng)友認(rèn)為 SD-XL 為了擺脫「糟糕的品味」，設(shè)定了太多的規(guī)則，定制化空間越來(lái)越小，不符合大多數(shù)人的喜好。目前 v1.5 的 Stable Diffusion 仍然是社區(qū)內(nèi)最流行的基座模型。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

網(wǎng)友表示希望新版 SD 能夠和 SD 2.1 版本的嵌入、hypernetworkds 和 Lora 模型保持兼容，再?gòu)牧汩_(kāi)始重訓(xùn)的話就太難受了。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

也有網(wǎng)友認(rèn)為，SD-XL 的表現(xiàn)和 civit 網(wǎng)站上網(wǎng)友分享的模型差不多，新模型的效果也并不是特別驚艷，也就是平均水平。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

SD-XL：開(kāi)源版 Midjourney

關(guān)于 Stable Diffusion XL 模型的具體信息，官方并沒(méi)有透露太多，目前只知道是一個(gè)與 v2 模型架構(gòu)相似、但規(guī)模和參數(shù)量更大的模型。

SD-v2.1 包括 9 億參數(shù)，SD-XL 大約有 23 億參數(shù)，Emad 表示正式版可能會(huì)額外發(fā)布一個(gè)更小的蒸餾版本。

SD-XL 相比之前版本的改進(jìn)如下：

使用較短的描述性 prompt 即可生成高質(zhì)量圖像
可以生成更貼合 prompt 的圖像
圖像中的人體結(jié)構(gòu)更合理
與 v2.1 和 v1.5 版本 (程度較輕) 相比，SD-XL 生成的圖片更符合大眾審美
負(fù)面提示詞（negative prompt）是可選項(xiàng)
生成的肖像圖更逼真
圖像中的文本更清晰

需要注意的是，SD-XL 可能與之前版本的插件不兼容。

清晰可讀的文字

在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中，并不具備在圖片中生成可讀文本的能力。

雖然 SD-XL 生成的文本信息并不總是準(zhǔn)確，但確實(shí)得到了巨大的提升。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一個(gè)女人坐在餐館里拿著寫著「Menu」的菜單

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

Photo of a man holding a sign that says “Stable Diffusion”

一個(gè)男人舉著寫著「Stable Diffusion」的牌子

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

a young female holding a sign that says “Stable Diffusion”，highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

一個(gè)年輕的女性舉著一個(gè)牌子，上面寫著「Stable Diffusion」，頭發(fā)高亮，坐在餐廳外面，棕色的眼睛，穿著裙子，側(cè)燈

更好的人體結(jié)構(gòu)

Stable Diffusion 在生成人體解剖結(jié)構(gòu)方面一直存在諸多問(wèn)題，多幾條腿、少個(gè)胳膊實(shí)在是太常見(jiàn)不過(guò)的問(wèn)題，通常需要使用 inpaint 功能進(jìn)一步對(duì)圖像細(xì)節(jié)進(jìn)行修正；或者是使用 ControlNet 的 Open Pose 功能從參考圖像中復(fù)制人體的姿態(tài)。

比如說(shuō) SD-v1.5 生成瑜伽的圖像，經(jīng)常會(huì)出現(xiàn)扭曲的人體。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

一個(gè)女人的照片在瑜伽服裝，三角形的姿勢(shì)，海灘在晚上，邊緣照明

SD-XL 雖然生成的圖像并不完美，不過(guò)在人體姿態(tài)方面已經(jīng)有了顯著的進(jìn)步。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

更有美感（more aesthetic）

比如同樣以屋子為主題，SD-XL 可以生成更對(duì)稱、視覺(jué)效果更好的照片。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

SD-XL 在肖像照片上也有顯著改進(jìn)。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

photo shot of a woman

一個(gè)女人的照片

更貼合 prompt 的圖像

SD-XL 可以更好地理解輸入的 prompt，并生成更精確的圖像。

比如以 duotone（雙色）為例，SD-v1.5 只會(huì)生成黑白圖像，而 SD-XL 則可以生成具有多種顏色的雙色調(diào)圖像。

與 v1 模型相比，理解提示符的能力有所提高。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

duotone portrait of a woman

一個(gè)女人的雙色調(diào)肖像

因?yàn)?SD-XL 同屬 v2 系列模型，所以文本模型尺寸更大，可以比 v1 模型更好地理解提示詞。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

比如下面的例子中，v1.5 模型始終無(wú)法理解圖像中的兩個(gè)主題（機(jī)器人和人類），但 SD-XL 模型可以生成正常的圖像（雖然機(jī)器人還是不夠 big）。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

大機(jī)器人朋友坐在人類旁邊攻殼機(jī)動(dòng)隊(duì)風(fēng)格的動(dòng)漫壁紙

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一個(gè)年輕人，頭發(fā)染得很亮，棕色眼睛，穿著白襯衫和藍(lán)色牛仔褲，站在海灘上，背景是一座火山

藝術(shù)風(fēng)格

在藝術(shù)風(fēng)格上，SD-XL 并沒(méi)有顯著改進(jìn)，和之前的版本各有千秋。

比如兩個(gè)模型以不同的角度生成了 Edward Hopper 風(fēng)格的圖像。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

New York city by Edward Hopper

Edward Hopper 繪制的紐約

Leonid Afmov 的風(fēng)格中，SD-v1.5 更準(zhǔn)確，SD-XL 缺少了不同顏色的筆刷（unmistakable colorful board brushstrokes）。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

New York city by Leonid Afremov

Leonid Afemov 繪制的紐約

William-Adolphe Bouguereau 風(fēng)格中，V1.5 和 SDXL 都可以生成一些類似的內(nèi)容，其中 SD-XL 更接近 Bouguereau 創(chuàng)作的經(jīng)典學(xué)院派繪畫，并且面部細(xì)節(jié)更多。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau 繪制的美女肖像

風(fēng)格轉(zhuǎn)變問(wèn)題

在添加一些無(wú)關(guān)緊要的關(guān)鍵字后，模型的風(fēng)格可能會(huì)突然轉(zhuǎn)變。

比如先生成一張照片風(fēng)格的圖像。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一個(gè)年輕人，頭發(fā)染得很亮，棕色眼睛，穿著白襯衫和藍(lán)色牛仔褲，站在海灘上，背景是一座火山

再添加一條黃色的圍巾后，圖像風(fēng)格就變成了卡通風(fēng)格。

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一個(gè)年輕人，頭發(fā)染得很亮，棕色的眼睛，圍著黃色的圍巾，穿著白襯衫和藍(lán)色牛仔褲，站在一個(gè)火山為背景的海灘上

問(wèn)題的故障可能源于預(yù)覽問(wèn)題，在正式發(fā)布后該問(wèn)題不知能否得到解決。

參考資料：

https://clipdrop.co/stable-diffusion

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了

SD-XL：開(kāi)源版 Midjourney

清晰可讀的文字

更好的人體結(jié)構(gòu)

更有美感（more aesthetic）

更貼合 prompt 的圖像

藝術(shù)風(fēng)格

風(fēng)格轉(zhuǎn)變問(wèn)題

相關(guān)文章

Midjourney 危，Stable Diffusion-XL 開(kāi)啟公測(cè)：會(huì)畫手、能寫字，再也不用寫長(zhǎng) prompt 了