最強(qiáng)開源文生圖模型一夜易主：SD 原班人馬打造，要發(fā) SOTA 視頻生成模型

智東西 2024/8/2 14:22:20 責(zé)編：汪淼

評(píng)論：

感謝IT之家網(wǎng)友刺客的線索投遞！

最強(qiáng)開源文生圖模型一夜易主！

昨日晚間，開源文生圖模型霸主 Stable Diffusion 原班人馬，宣布推出全新的圖像生成模型 FLUX.1。

FLUX.1 包含專業(yè)版、開發(fā)者版、快速版三種模型，其中前兩款模型擊敗 SD3-Ultra 等主流模型，較小規(guī)模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL?E 3 等更大的模型。

FLUX.1 ELO 分?jǐn)?shù)與主流模型對(duì)比

▲ FLUX.1 ELO 分?jǐn)?shù)與主流模型對(duì)比

FLUX.1 在文字生成、復(fù)雜指令遵循和人手生成上具備優(yōu)勢(shì)。以下是其最強(qiáng)的專業(yè)版模型 FLUX.1 [pro] 生成圖像示例，可以看到即使是生成大段的文字、多個(gè)人物，也沒有出現(xiàn)字符、人手等細(xì)節(jié)上的錯(cuò)誤。

FLUX.1 [pro] 生成圖像示例

▲ FLUX.1 [pro] 生成圖像示例

FLUX.1 現(xiàn)已在開源平臺(tái) Replicate 上可用，以下是我用提示詞“世界上最小的黑森林蛋糕，手指大小，被黑森林的樹木包圍”，在三款模型上生成的圖像，用時(shí)分別為 17.5s、12.2s、1.5s。

三款模型生成對(duì)比

▲ 三款模型生成對(duì)比

FLUX.1 同時(shí)開放了 API（應(yīng)用程序接口），按圖像張數(shù)定價(jià)，三款模型的價(jià)格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元（約合人民幣 0.4 元、0.22 元、0.022 元）。

FLUX.1 背后的公司名為 Black Forest Labs（黑森林實(shí)驗(yàn)室），由 Stable Diffusion 原班人馬、多位 Stability AI 前研究員成立。與 Stability AI 類似，黑森林致力于研發(fā)優(yōu)質(zhì)多模態(tài)模型并開源，目前已完成 3100 萬美元（約合人民幣 2.25 億元）的種子輪融資。

黑森林還預(yù)告不久之后將發(fā)布 SOTA（當(dāng)前技術(shù)指標(biāo)第一）視頻模型。從其放出的 Demo 來看，無論是流暢度、穩(wěn)定性還是物理模擬都達(dá)到第一梯隊(duì)水平，該公司或許會(huì)成為視頻生成領(lǐng)域的一匹黑馬。

視頻生成模型預(yù)告

▲ 視頻生成模型預(yù)告

三款模型試用地址：

https://replicate.com/black-forest-labs/flux-pro
https://replicate.com/black-forest-labs/flux-dev
https://replicate.com/black-forest-labs/flux-schnell

擅長(zhǎng)生成文字、人手，三種模型規(guī)模秒級(jí)生成

FLUX.1 在視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性等方面性能優(yōu)越，其具有三大特點(diǎn)：文字生成、復(fù)雜構(gòu)圖、人手描繪。

文字的生成在圖像、視頻生成中非常重要，許多模型容易混淆看起來相似的字母。FLUX.1 可以處理重復(fù)字母的棘手單詞，例如生成一個(gè)黑森林 Flux Schnell 蛋糕：

黑森林 Flux Schnell 蛋糕

▲ 黑森林 Flux Schnell 蛋糕

在構(gòu)圖方面，F(xiàn)LUX.1 擅長(zhǎng)按照?qǐng)D像中事物應(yīng)該位于哪里等復(fù)雜指示進(jìn)行操作。例如，F(xiàn)LUX.1 完美地演繹了這段提示詞：三個(gè)魔法巫師站在一張黃色桌子上，每個(gè)巫師都拿著一個(gè)標(biāo)志。左邊，一個(gè)穿著黑色長(zhǎng)袍的巫師拿著一個(gè)寫著“AI”的標(biāo)志；中間，一個(gè)穿著紅色長(zhǎng)袍的女巫拿著一個(gè)寫著“is”的標(biāo)志；在右邊，一個(gè)穿著藍(lán)色長(zhǎng)袍的巫師拿著一個(gè)寫著“cool”的標(biāo)志。

復(fù)雜構(gòu)圖

▲ 復(fù)雜構(gòu)圖

人手一直是多模態(tài)生成模型的重災(zāi)區(qū)。FLUX.1 生成的人手圖像雖然還不夠完美，但實(shí)現(xiàn)了很大的進(jìn)步。

▲ 人手

FLUX.1 共有專業(yè)版、開發(fā)者版、快速版三種版本。

其中，FLUX.1[pro] 是最先進(jìn)的一個(gè)版本，具有頂級(jí)的即時(shí)跟蹤、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性，面向?qū)I(yè)用戶提供定制的企業(yè)解決方案。

FLUX.1 [pro] 生成圖像示例

▲ FLUX.1 [pro] 生成圖像示例

FLUX.1[dev] 面向非商業(yè)應(yīng)用，它從 FLUX.1 [pro] 提煉而來，具有相似的質(zhì)量和能力，同時(shí)比相同尺寸的標(biāo)準(zhǔn)模型更高效。

FLUX.1 [dev] 生成圖像示例

▲ FLUX.1 [dev] 生成圖像示例

FLUX.1[schnell] 是三款模型中最快的，專為本地開發(fā)和個(gè)人使用而定制，并根據(jù) Apache 2.0 標(biāo)準(zhǔn)許可公開提供。

FLUX.1 [schnell] 生成圖像示例

▲ FLUX.1 [schnell] 生成圖像示例

FLUX.1 現(xiàn)已在開源平臺(tái) Replicate 上可用，只需一行代碼即可在云端運(yùn)行，用戶也可以下載模型權(quán)重并以編程方式運(yùn)行。FLUX.1 的 API 也同步開放，三款模型的價(jià)格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元（約合人民幣 0.4 元、0.22 元、0.022 元）。

擊敗 MJ V6、DALL?E 3，技術(shù)報(bào)告即將發(fā)布

性能方面，F(xiàn)LUX.1 經(jīng)過特別微調(diào)，在預(yù)訓(xùn)練中保留了整個(gè)輸出多樣性，在指令遵守、視覺質(zhì)量、尺寸 / 長(zhǎng)寬變化等多個(gè)方面樹立了新標(biāo)準(zhǔn)。

其中 FLUX.1 [pro] 和 [dev] 兩款模型，在 5 項(xiàng)測(cè)評(píng)標(biāo)準(zhǔn)中都超過了 Midjourney v6.0、DALL?E 3 和 SD3-Ultra 等熱門模型。

FLUX.1 [schnell] 作為輕量級(jí)模型，不僅優(yōu)于同類競(jìng)爭(zhēng)對(duì)手，還優(yōu)于 Midjourney v6.0、DALL?E 3 等強(qiáng)大的非蒸餾模型。

FLUX.1 性能與主流模型對(duì)比

▲ FLUX.1 性能與主流模型對(duì)比

此外，所有 FLUX.1 模型均支持 0.1 和 2.0 百萬像素的多種寬高比和分辨率。

寬高比 / 分辨率變化

▲ 寬高比 / 分辨率變化

如此強(qiáng)大的性能是怎么做到的？

在模型架構(gòu)上，F(xiàn)LUX.1 采用基于多模態(tài)和并行擴(kuò)散 Transformer 模塊的混合架構(gòu)，并將其擴(kuò)展到 12B 參數(shù)。

團(tuán)隊(duì)通過建立流匹配（Flow Matching）來改進(jìn)最先進(jìn)的擴(kuò)散模型，并通過結(jié)合旋轉(zhuǎn)位置嵌入（Rotary Position Embedding）和并行注意力層，來提高模型性能和硬件效率。更詳細(xì)的技術(shù)報(bào)告將在不久后發(fā)布。

SD 原班人馬，2.25 億種子輪，要發(fā) SOTA 視頻模型

黑森林實(shí)驗(yàn)室由 Stable Diffusion 的創(chuàng)始團(tuán)隊(duì)成立，該團(tuán)隊(duì)此前的工作還包括高質(zhì)量圖像生成模型 VQGAN、視頻生成模型 Stable Video Diffusion 等。

Stable Diffusion 最初的 5 位作者中，4 位曾加入 Stability AI 并持續(xù)開發(fā) SD 后續(xù)版本的成員，包括 Robin Rombach、Andreas Blattmann、Dominik Lorenz 以及 Patrick Esser，都在黑森林實(shí)驗(yàn)室的創(chuàng)始團(tuán)隊(duì)中。

Stable Diffusion 作者、黑森林實(shí)驗(yàn)室創(chuàng)始團(tuán)隊(duì)

▲ Stable Diffusion 作者、黑森林實(shí)驗(yàn)室創(chuàng)始團(tuán)隊(duì)

該團(tuán)隊(duì)稱，其核心信念是開發(fā)廣泛可訪問的模型，促進(jìn)研究界和學(xué)術(shù)界的創(chuàng)新和協(xié)作，并提高模型透明度。

黑森林實(shí)驗(yàn)室宣布已完成 3100 萬美元（約合人民幣 2.25 億元）的種子輪融資，由知名風(fēng)投機(jī)構(gòu) a16z（Andreessen Horowitz）領(lǐng)投，VR 制造商 Oculus 的 CEO Brendan Iribe、創(chuàng)企孵化器 YC 的 CEO 陳嘉興（Garry Tan）、英偉達(dá)研究員 Timo Aila 等專家及 AI 公司跟投，還收到了來自 General Catalyst 等一線基金的后續(xù)投資。

該團(tuán)隊(duì)的顧問委員會(huì)，包括在內(nèi)容創(chuàng)作行業(yè)擁有豐富經(jīng)驗(yàn)的前迪士尼總裁 Michael Ovitz，以及神經(jīng)風(fēng)格轉(zhuǎn)換的先驅(qū) Matthias Bethge 教授。

剛剛創(chuàng)業(yè)的 AI 大神安德烈?卡帕西（Andrej Karpathy）為黑森林團(tuán)隊(duì)送上祝福，并稱“開源的 FLUX.1 圖像生成模型看起來非常強(qiáng)大”。

卡帕西評(píng)論

▲ 卡帕西評(píng)論

創(chuàng)始團(tuán)隊(duì)的前領(lǐng)導(dǎo) ——Stability AI 前 CEO 埃馬德?莫斯塔克（Emad Mostaque）也發(fā)來賀電，還說“之前能與他們合作是我的榮幸，我相信他們會(huì)繼續(xù)在生成每一個(gè)像素的旅程中突破界限”。

莫斯塔克評(píng)論

▲ 莫斯塔克評(píng)論

在下一步的工作上，黑森林預(yù)告將發(fā)布一款 SOTA 文生視頻模型，“讓所有人都能將文本轉(zhuǎn)為視頻”。該模型將建立在 FLUX.1 的基礎(chǔ)上，“以高清和前所未有的速度實(shí)現(xiàn)精確創(chuàng)作和編輯”。

視頻生成模型預(yù)告

▲ 視頻生成模型預(yù)告

結(jié)語：多模態(tài)大模型領(lǐng)域黑馬涌現(xiàn)

在眾多大廠、創(chuàng)企狂卷文生視頻之際，文生圖領(lǐng)域突然迎來黑馬?！皺M空出世”的 FLUX.1 的不僅展現(xiàn)出卓越的性能，在文字生成、復(fù)雜構(gòu)圖、人手描繪等方面突破難關(guān)，還以多樣化的版本滿足不同用戶的需求。

黑森林實(shí)驗(yàn)室憑借著 Stable Diffusion 原班人馬的強(qiáng)大實(shí)力，獲得了豐厚的種子輪融資，也吸引了眾多行業(yè)大咖的關(guān)注與支持。其后續(xù)將發(fā)布的視頻模型，又將為文生視頻領(lǐng)域注入新的活力。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

最強(qiáng)開源文生圖模型一夜易主：SD 原班人馬打造，要發(fā) SOTA 視頻生成模型

擅長(zhǎng)生成文字、人手，三種模型規(guī)模秒級(jí)生成

擊敗 MJ V6、DALL?E 3，技術(shù)報(bào)告即將發(fā)布

SD 原班人馬，2.25 億種子輪，要發(fā) SOTA 視頻模型

結(jié)語：多模態(tài)大模型領(lǐng)域黑馬涌現(xiàn)

相關(guān)文章

最強(qiáng)開源文生圖模型一夜易主：SD 原班人馬打造，要發(fā) SOTA 視頻生成模型

擅長(zhǎng)生成文字、人手，三種模型規(guī)模秒級(jí)生成

擊敗 MJ V6、DALL?E 3，技術(shù)報(bào)告即將發(fā)布

SD 原班人馬，2.25 億種子輪，要發(fā) SOTA 視頻模型