雖然此前 CEO 曾陷入種種爭議,但依然不影響 Stability AI 登上時(shí)代雜志。近日,該公司又發(fā)布了 Stable Diffusion 的 XL 0.9 版本,35 億 + 66 億雙模型,搭載最大 OpenCLIP,讓 AI 生圖質(zhì)量又有了新的飛躍。
Stable Diffusion 又雙叒升級(jí)了!
最近,Stability AI 發(fā)布了最新版的 Stable Diffusion XL 0.9(SDXL 0.9)。
比起之前的模型,這波更新在圖像和構(gòu)圖細(xì)節(jié)上,都有了質(zhì)的飛躍。
尤其是在參數(shù)上,這次的 SDXL0.9 具有 35 億參數(shù)基礎(chǔ)模型和 66 億參數(shù)模型的集成管線。相比之下,Beta 測試版僅用了單個(gè) 31 億參數(shù)的模型。
為了生成更逼真的圖像,以及更大的深度和更高的分辨率(1024x1024),SDXL 0.9 使用了兩個(gè) CLIP 模型,包括迄今為止最大的 OpenCLIP 模型(OpenCLIP ViT-G / 14)。
不僅如此,SDXL 0.9 在消費(fèi)級(jí)顯卡上就能運(yùn)行。只需要 Win10/11 或 Linux 操作系統(tǒng)、16GB 內(nèi)存,以及具有 8GB 以上顯存的英偉達(dá) RTX 20 系顯卡即可。
SDXL 0.9 和 SDXL Beta 的差異究竟有多大?
咱們看圖說話。
實(shí)測效果
下面就來看看新版的 SDXL 0.9,在圖片細(xì)節(jié)上有什么不一樣吧~
Prompt:外星人在拉斯維加斯漫步
Prompt:優(yōu)勝美地國家公園的一只狼
Negative prompt:3d 渲染,光滑,塑料,模糊,顆粒感,低分辨率,動(dòng)漫,過度飽和
Prompt:手舉咖啡
Negative prompt:3d 渲染,光滑,塑料,模糊,顆粒狀,低分辨率,動(dòng)漫
官方表示,SDXL 系列還會(huì)提供一系列超越基本文本 prompt 的功能。
包括圖像對圖像的 prompt(輸入一個(gè)圖像以獲得該圖像的變化)、內(nèi)畫(重建圖像的缺失部分)和外畫(構(gòu)建一個(gè)現(xiàn)有圖像的無縫擴(kuò)展)。
SDXL 0.9 在兩個(gè) CLIP 模型上運(yùn)行,包括迄今為止訓(xùn)練的最大的 OpenCLIP 模型之一(OpenCLIP ViT-G / 14),這增強(qiáng)了 0.9 的處理能力和創(chuàng)造具有更大深度和 1024x1024 更高分辨率的逼真圖像的能力。
SDXL 團(tuán)隊(duì)不久將發(fā)布一個(gè)研究博客,更詳細(xì)地介紹這個(gè)模型的規(guī)格和測試。
榮登 Time 最具影響力公司
就在最近,Stability AI 被時(shí)代雜志選為 100 家最有影響力的公司之一。
對于 Stability AI,時(shí)代雜志是這樣介紹的 ——
如果你能用文字描述,Stability AI 可以將其轉(zhuǎn)化為圖片。
Stable Diffusion 是該公司幫助訓(xùn)練的免費(fèi)開源文本到圖像生成器,在 8 月份推出后,它改變了世界對于 AI 潛力的理解。
然而,Stability AI 很快陷入了種種爭議,包括如何訓(xùn)練這些工具,以及從互聯(lián)網(wǎng)上獲取數(shù)據(jù)的版權(quán)訴訟之中。
盡管如此,該公司表示,在推出 Stable Diffusion 2.0 的一個(gè)月內(nèi),App Store TOP 10 應(yīng)用中的 4 個(gè),背后都是這個(gè)模型。
而公司 CEO Emad Mostaque 也被報(bào)道經(jīng)??浯蠊镜谋憩F(xiàn),此前他曾聲稱:Stability AI「真正的開源」為「突破」鋪平了道路。
SDXL Beta
實(shí)際上,SDXL 的 Beta 版本也沒發(fā)布多久,可見作圖這一塊的版本迭代真的是日新月異。
當(dāng)時(shí),StabilityAI 就表示,Stable Diffusion XL 并不是最終發(fā)布版的名字,并且也并非是 v3,因?yàn)?SD-XL 的架構(gòu)和 SD-v2 系列的模型架構(gòu)非常相似。
下面幾張 SD-XL 官方發(fā)布的例圖,可以看出圖像的質(zhì)量已經(jīng)非常能打了。
SD-XL 相比之前版本的改進(jìn)如下:
使用較短的描述性 prompt 即可生成高質(zhì)量圖像
可以生成更貼合 prompt 的圖像
圖像中的人體結(jié)構(gòu)更合理
與 v2.1 和 v1.5 版本 (程度較輕) 相比,SD-XL 生成的圖片更符合大眾審美
負(fù)面提示詞(negative prompt)是可選項(xiàng)
生成的肖像圖更逼真
圖像中的文本更清晰
清晰可讀的文字
在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中,并不具備在圖片中生成可讀文本的能力。
雖然 SD-XL 生成的文本信息并不總是準(zhǔn)確,但確實(shí)得到了巨大的提升。
更好的人體結(jié)構(gòu)
Stable Diffusion 在生成人體解剖結(jié)構(gòu)方面一直存在諸多問題,多幾條腿、少個(gè)胳膊實(shí)在是太常見不過的問題。
比如說 SD-v1.5 生成瑜伽的圖像,經(jīng)常會(huì)出現(xiàn)扭曲的人體。
而 SD-XL 雖然生成的圖像并不完美,不過在人體姿態(tài)方面已經(jīng)有了顯著的進(jìn)步。
更有美感(more aesthetic)
比如同樣以屋子為主題,SD-XL 可以生成更對稱、視覺效果更好的照片。
SD-XL 在肖像照片上也有顯著改進(jìn)。
參考資料:
https://stability.ai/blog/sdxl-09-stable-diffusion
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。