設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Stable Diffusion 原班人馬新公司官宣!新模型一夜刷新 AI 繪畫格局,已獲 3200 萬美元融資

量子位 2024/8/2 13:11:34 責(zé)編:清源

剛剛,Stable Diffusion 原班人馬官宣創(chuàng)業(yè)新公司!

3 月宣布從 Stability AI 出走的 Robin Rombach,就是 Stable Diffusion 的兩個(gè)主要作者之一,和十來個(gè)原公司小伙伴,正式宣布了組團(tuán)創(chuàng)業(yè)的消息。

新公司名叫 Black Forest Lab,黑森林實(shí)驗(yàn)室。一亮相就 kuku 發(fā)了一個(gè)系列、共 3 款圖片生成模型,其中有 2 個(gè)開源。

而且支持中文輸入

效果怎么樣?看過的網(wǎng)友稱很狂野(wild)!

輸入提示詞,一次測(cè)試出了畫面效果和人臉數(shù)據(jù)等安全措施:

一名十多歲戴著滑雪面罩的女孩在谷倉里做折紙手工。圖片底部有指定的黃色文字。背景中有個(gè)相框,里面是 Obama 的照片。

單是看了這組圖文對(duì)照,就有網(wǎng)友感慨,這是他看過最棒的圖像生成效果。

要說這家公司的特色,就是主打一個(gè)不遮遮掩掩。

今天官宣成立,今天發(fā)布系列模型,還宣布了融資進(jìn)度 ——

已經(jīng)完成 3200 萬美元(當(dāng)前約 2.32 億元人民幣)融資,由 a16z 領(lǐng)投,Oculus VR 聯(lián)創(chuàng) Brendan Iribe、YC 前合伙人 Garry Tan、NVIDIA Research 領(lǐng)導(dǎo)計(jì)算機(jī)圖形研究小組的 Timo Aila、蘋果杰出科學(xué)家(英特爾智能系統(tǒng)前首席科學(xué)家)Vladlen Koltun 等人投資。

可以說,黑森林既得到了資本市場(chǎng)的押注,也得到了業(yè)界大佬們的青睞。

AI 大??ㄅ廖饕苍诰€發(fā)來賀電,還順道稱贊了一下黑森林的新模型:

歪瑞古德!開源的 FLUX.1 image gen 模型看起來非常強(qiáng)大。

而且注意了,開源協(xié)議是寬松的 Apache2.0。

黑森林圖像生成模型首秀

卡帕西都覺得 exciting 了,讓咱來視覺感受下黑森林的模型效果。

這里,量子位挑選了五種類型的生成效果展示,圖片均由官方提供,未標(biāo)明具體使用了旗下哪款模型。

第一關(guān),文字生成。

提示詞:舊教室黑板的照片。黑板上用粉筆寫著“l(fā)et’s make some really pretty stuff together”,詞后有一個(gè)紅色的粉筆心。陽光從窗戶照進(jìn)來。

第二關(guān),非真實(shí)場(chǎng)景 + 文字生成。

提示詞:水下場(chǎng)景中,兩只貓頭鷹坐在一張精美的餐桌旁,餐桌中央點(diǎn)燃了蠟燭,兩只貓頭鷹正在一起享用一頓美味的晚餐。左邊的貓頭鷹穿著燕尾服,右邊的貓頭鷹穿著漂亮的裙子。背景中有一艘潛艇駛過,其側(cè)面畫有“What a Hoot”字樣。桌子下面的圖像底部有小水母在游動(dòng),電影般美麗的數(shù)字藝術(shù)品。

第三關(guān),現(xiàn)實(shí)世界真實(shí)場(chǎng)景。

提示詞:弗萊堡一條美麗街道的照片,一輛有軌電車經(jīng)過,人們有的散步有的騎自行車。

第四關(guān),真實(shí)人物和動(dòng)漫人物生成。

提示詞:三位女士在市中心街道上拍攝的照片,她們把手伸向鏡頭。

提示詞:美麗的動(dòng)漫藝術(shù)品,一個(gè)可愛的貓娘,看起來很沮喪,手里拿著一張紙,上面畫著微笑,她快要哭了。

第五關(guān),動(dòng)物形象生成。

提示詞:森林里的一只山貓,由專業(yè)攝影在強(qiáng)光下拍攝。

提示詞:近距離渲染一個(gè)神話生物,由詳細(xì)的螺旋分形和卷須組成,詳細(xì)的遞歸皮膚紋理

FLUX.1 系列模型

此次,黑森林共發(fā)了 FLUX.1 系列的 3 個(gè)模型:pro、dev、schnell。

FLUX.1 [pro]:系列最強(qiáng)音。

FLUX.1 系列的精華,提供最優(yōu)性能的圖像生成,具有一流的指令遵循、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性。

黑森林團(tuán)隊(duì)正緩步提升 API 中 FLUX.1 [pro] 的推理計(jì)算能力。

此版本可以通過 Replicate 和 fal.ai 訪問;提供專用和定制的企業(yè)解決方案。

FLUX.1 [dev]:系列中杯。

一個(gè)允許非商業(yè)途徑使用的模型,開放權(quán)重、經(jīng)過蒸餾。

[dev] 直接從 [pro] 中蒸餾而來,具有相似的質(zhì)量和迅速的遵守能力,同時(shí)比相同尺寸的標(biāo)準(zhǔn)模型更高效。

可在抱抱臉上試玩,或直接在 Replicate 或 fal.ai 上試用。

FLUX.1 [schnell]:速度小旋風(fēng)。

系列最快模型,為本地開發(fā)和個(gè)人開發(fā)者量身制作。

FLUX.1 [schnell] 在 Apache2.0 許可證下公開可用,模型權(quán)重可以前往抱抱臉查詢,推理代碼可以在 GitHub 上找到。

已經(jīng)獲得了 ComfyUI 的支持,可以直接使用;也可以通過 Replicate 或 fal.ai 使用。

來個(gè)直觀感受!

這里放三張照片,是以上大杯、中杯、小杯在不同提示詞下,圍繞“蛋糕”這個(gè)主題的生成效果。

從左至右,使用模型依次為大、中、小杯

量子位多次測(cè)試后發(fā)現(xiàn),輸入簡(jiǎn)單提示詞的話,用 pro 版本生成一張圖片的用時(shí)在 15s-25s 之間(成果圖下方會(huì)顯示生成用時(shí))。

黑森林稱,所有 FLUX.1 模型都基于多模態(tài)和并行擴(kuò)散 Transformer 塊的混合架構(gòu),并擴(kuò)展到 12B 參數(shù)。

3 款模型中,F(xiàn)LUX.1 [pro] 和 [dev] 在視覺質(zhì)量、提示響應(yīng)度、尺寸 / 長(zhǎng)寬高比列靈活性、排版和輸出多樣性這些方面,超過了 Midjourney v6.0、DALL?E 3 (HD) 和 Stable Diffusion 3-Ultra。

而 FLUX.1 [schnell] ,被團(tuán)隊(duì)稱為“迄今為止最先進(jìn)的少步驟模型(few-step model)”。

它不僅在同類競(jìng)爭(zhēng)對(duì)手中脫穎而出,還超越了更強(qiáng)大的非壓縮模型,如 Midjourney v6.0 和 DALL?E 3 (HD)。

整個(gè) FLUX.1 系列都經(jīng)過了專門的微調(diào),以求保留預(yù)訓(xùn)練階段的全部輸出多樣性。

與已有的技術(shù)相比,F(xiàn)LUX.1 還有以下優(yōu)勢(shì):

有人免不了要問了,你們是 Stability AI 的 OG 元老,是核心成員。

So,你們這新模型,跟人家旗下的 Stable Diffusion 有啥區(qū)別?

創(chuàng)始團(tuán)隊(duì)成員在 Reddit 上進(jìn)行了回應(yīng):

即使是我們的最弱型號(hào) schnell,生成質(zhì)量也更好,生成速度也更快。

主打一個(gè)我成立新公司超越我自己

SD 主要作者組團(tuán)打造

介紹完模型相關(guān)資料,是時(shí)候正式來認(rèn)識(shí)一下這家新公司了。

黑森林實(shí)驗(yàn)室,今天剛剛宣布成立。

公司官網(wǎng)上,赫然寫著一句口號(hào):A new era of creation。

公司使命推進(jìn)最先進(jìn)、高質(zhì)量的圖像和視頻生成深度學(xué)習(xí)模型,并將其提供給最廣泛的受眾。

華點(diǎn)出現(xiàn)了!他們的下一步野心很明顯,就是還要進(jìn)軍視頻生成領(lǐng)域。

還放話,得是“SOTA”。

核心成員 Robin Rombach,Stability AI 前研究科學(xué)家。

在 Stability AI 工作期間,他是 Stable Diffusion 模型的主要開發(fā)者之一,也參與研究了 SDXL、SVD 等項(xiàng)目。

今年 3 月,Robin 從 Stability AI 跑路。

外界評(píng)價(jià)他的離開讓原本就亂成一鍋粥的這家獨(dú)角獸傷筋動(dòng)骨 —— 畢竟他是 SD 的兩位主力之一。

往前回顧,Robin 在海德堡大學(xué)拿下物理學(xué)的本科和碩士學(xué)位。

2020 年,他在海德堡計(jì)算機(jī)視覺小組在 Bj?rn Ommer 的指導(dǎo)下開始攻讀計(jì)算機(jī)科學(xué)博士學(xué)位,并于 2021 年隨研究小組移至慕尼黑大學(xué)。

研究重點(diǎn)關(guān)于生成深度學(xué)習(xí)模型,特別是文本到圖像系統(tǒng)。

谷歌學(xué)術(shù)被引數(shù)接近 1.5 萬。

此外,官網(wǎng)公開的成員中,Andreas Blattmann、Axel Sauer、Dominik Lorenz、Dustin Podel、Frederic Boesel、Patrick Esser、Sumith Kulal、Tim Dockhorn、Yam Levi、Zion English 都是可公開查詢到的 Stability AI 原成員。

(Andi Holmes 和 Jonas Müller 兩人暫未查詢到準(zhǔn)確資料)

可以說,黑森林就是 SD 的原班核心成員們出走再啟航了。

難怪 Axel Sauer 轉(zhuǎn)發(fā)了官推,大聲吶喊:

我們還活著!

One More Thing

好巧不巧,同一天,Stability AI 也有新動(dòng)作:

推出新的 AI 模型 Stable Fast 3D,官方稱它可以在半秒內(nèi)生成 3D 圖像。

此前的模型需要數(shù)分鐘才能生成類似效果的 3D 圖像,新模型完成相同任務(wù)的速度是現(xiàn)有的 1200 倍。

那 Stability AI 在 3 月跑路的 CEO,Emad Mostaque,他在干嘛呢?

六月份,他官宣了自己的去向,新公司 Schelling AI,“將構(gòu)建和支持由 AI 資金支持的開源代碼、模型和數(shù)據(jù)集”。

重點(diǎn)精力放在創(chuàng)新研究和精心構(gòu)建具有文化意識(shí)、科學(xué)、教育和創(chuàng)意的 AI。

三天前,Schelling AI 發(fā)布了系列文章第一篇,《How To Think About AI》。

文章有點(diǎn)長(zhǎng),感興趣的朋友們可以搜索自行查看,這里就提一下核心思想 ——

AI 發(fā)展很快,提倡開源開放,加速創(chuàng)新協(xié)作。

以及,要不說大家都是體面人呢!

黑森林實(shí)驗(yàn)室宣布成立的推文,人家前 CEO 還是友情轉(zhuǎn)發(fā)了的(此處放一個(gè)狗頭)。

參考鏈接:

  • [1]https://blackforestlabs.ai

  • [2]https://news.ycombinator.com/item?id=41130620

  • [3]https://x.com/EMostaque

  • [4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/

  • [5]https://x.com/SchellingAI/status/1818600200232927721

本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:衡宇

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知