與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

新智元 2023/6/25 17:21:06 責編：夢澤

評論：

雖然此前 CEO 曾陷入種種爭議，但依然不影響 Stability AI 登上時代雜志。近日，該公司又發(fā)布了 Stable Diffusion 的 XL 0.9 版本，35 億 + 66 億雙模型，搭載最大 OpenCLIP，讓 AI 生圖質量又有了新的飛躍。

Stable Diffusion 又雙叒升級了！

最近，Stability AI 發(fā)布了最新版的 Stable Diffusion XL 0.9（SDXL 0.9）。

比起之前的模型，這波更新在圖像和構圖細節(jié)上，都有了質的飛躍。

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

尤其是在參數(shù)上，這次的 SDXL0.9 具有 35 億參數(shù)基礎模型和 66 億參數(shù)模型的集成管線。相比之下，Beta 測試版僅用了單個 31 億參數(shù)的模型。

為了生成更逼真的圖像，以及更大的深度和更高的分辨率（1024x1024），SDXL 0.9 使用了兩個 CLIP 模型，包括迄今為止最大的 OpenCLIP 模型（OpenCLIP ViT-G / 14）。

不僅如此，SDXL 0.9 在消費級顯卡上就能運行。只需要 Win10/11 或 Linux 操作系統(tǒng)、16GB 內存，以及具有 8GB 以上顯存的英偉達 RTX 20 系顯卡即可。

SDXL 0.9 和 SDXL Beta 的差異究竟有多大？

咱們看圖說話。

實測效果

下面就來看看新版的 SDXL 0.9，在圖片細節(jié)上有什么不一樣吧~

Prompt：外星人在拉斯維加斯漫步

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SDXL Beta 版

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SDXL 0.9

Prompt：優(yōu)勝美地國家公園的一只狼

Negative prompt：3d 渲染，光滑，塑料，模糊，顆粒感，低分辨率，動漫，過度飽和

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SDXL Beta 版

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SDXL 0.9

Prompt：手舉咖啡

Negative prompt：3d 渲染，光滑，塑料，模糊，顆粒狀，低分辨率，動漫

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SDXL Beta 版

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SDXL 0.9

官方表示，SDXL 系列還會提供一系列超越基本文本 prompt 的功能。

包括圖像對圖像的 prompt（輸入一個圖像以獲得該圖像的變化）、內畫（重建圖像的缺失部分）和外畫（構建一個現(xiàn)有圖像的無縫擴展）。

SDXL 0.9 在兩個 CLIP 模型上運行，包括迄今為止訓練的最大的 OpenCLIP 模型之一（OpenCLIP ViT-G / 14），這增強了 0.9 的處理能力和創(chuàng)造具有更大深度和 1024x1024 更高分辨率的逼真圖像的能力。

SDXL 團隊不久將發(fā)布一個研究博客，更詳細地介紹這個模型的規(guī)格和測試。

榮登 Time 最具影響力公司

就在最近，Stability AI 被時代雜志選為 100 家最有影響力的公司之一。

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

對于 Stability AI，時代雜志是這樣介紹的 ——

如果你能用文字描述，Stability AI 可以將其轉化為圖片。

Stable Diffusion 是該公司幫助訓練的免費開源文本到圖像生成器，在 8 月份推出后，它改變了世界對于 AI 潛力的理解。

然而，Stability AI 很快陷入了種種爭議，包括如何訓練這些工具，以及從互聯(lián)網(wǎng)上獲取數(shù)據(jù)的版權訴訟之中。

盡管如此，該公司表示，在推出 Stable Diffusion 2.0 的一個月內，App Store TOP 10 應用中的 4 個，背后都是這個模型。

而公司 CEO Emad Mostaque 也被報道經(jīng)?？浯蠊镜谋憩F(xiàn)，此前他曾聲稱：Stability AI「真正的開源」為「突破」鋪平了道路。

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SDXL Beta

實際上，SDXL 的 Beta 版本也沒發(fā)布多久，可見作圖這一塊的版本迭代真的是日新月異。

當時，StabilityAI 就表示，Stable Diffusion XL 并不是最終發(fā)布版的名字，并且也并非是 v3，因為 SD-XL 的架構和 SD-v2 系列的模型架構非常相似。

下面幾張 SD-XL 官方發(fā)布的例圖，可以看出圖像的質量已經(jīng)非常能打了。

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SD-XL 相比之前版本的改進如下：

使用較短的描述性 prompt 即可生成高質量圖像
可以生成更貼合 prompt 的圖像
圖像中的人體結構更合理
與 v2.1 和 v1.5 版本 (程度較輕) 相比，SD-XL 生成的圖片更符合大眾審美
負面提示詞（negative prompt）是可選項
生成的肖像圖更逼真
圖像中的文本更清晰

清晰可讀的文字

在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中，并不具備在圖片中生成可讀文本的能力。

雖然 SD-XL 生成的文本信息并不總是準確，但確實得到了巨大的提升。

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

一個年輕的女性舉著一個牌子，上面寫著「Stable Diffusion」，頭發(fā)高亮，坐在餐廳外面，棕色的眼睛，穿著裙子，側燈

更好的人體結構

Stable Diffusion 在生成人體解剖結構方面一直存在諸多問題，多幾條腿、少個胳膊實在是太常見不過的問題。

比如說 SD-v1.5 生成瑜伽的圖像，經(jīng)常會出現(xiàn)扭曲的人體。

而 SD-XL 雖然生成的圖像并不完美，不過在人體姿態(tài)方面已經(jīng)有了顯著的進步。

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

更有美感（more aesthetic）

比如同樣以屋子為主題，SD-XL 可以生成更對稱、視覺效果更好的照片。

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

SD-XL 在肖像照片上也有顯著改進。

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

一個女人的照片

參考資料：

https://stability.ai/blog/sdxl-09-stable-diffusion

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：Stable Diffusion，人工智能

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步

實測效果

榮登 Time 最具影響力公司

SDXL Beta

清晰可讀的文字

更好的人體結構

更有美感（more aesthetic）

相關文章

與 Midjourney 開戰(zhàn)，Stable Diffusion XL 0.9 重磅發(fā)布，35 億 + 66 億雙模型，AI 圖像生成飛躍式進步