全面兼容 Stable Diffusion 生態(tài),LCM 模型成功實(shí)現(xiàn) 5-10 倍生成速度的提升,實(shí)時(shí) AI 藝術(shù)時(shí)代即將到來,所想即所得!
Latent Consistency Models(潛一致性模型)是一個(gè)以生成速度為主要亮點(diǎn)的圖像生成架構(gòu)。
和需要多步迭代傳統(tǒng)的擴(kuò)散模型(如 Stable Diffusion)不同,LCM 僅用 1 - 4 步即可達(dá)到傳統(tǒng)模型 30 步左右的效果。
由清華大學(xué)交叉信息研究院研究生駱?biāo)济愫妥T亦欽發(fā)明,LCM 將文生圖生成速度提升了 5-10 倍,世界自此邁入實(shí)時(shí)生成式 AI 的時(shí)代。
LCM-LoRA: https://huggingface.co/papers/2311.05556
項(xiàng)目主頁:https://latent-consistency-models.github.io/
Stable Diffusion 殺手:LCM
在 LCM 出現(xiàn)之前,不同團(tuán)隊(duì)在各種方向探索了五花八門的 SD1.5 和 SDXL 替代方案。
這些項(xiàng)目各有特色,但都存在著不兼容 LoRA 和不完全兼容 Stable Diffusion 生態(tài)的硬傷。按發(fā)布時(shí)間順序,比較重要的項(xiàng)目有:
這時(shí),LCM-LoRA 出現(xiàn)了:將 SD1.5、SSD1B、SDXL 蒸餾為 LCM 的 LoRA,將生成 5 倍加速生成能力帶到所有 SDXL 模型上并兼容所有現(xiàn)存的 LoRA,同時(shí)犧牲了小部分生成質(zhì)量; 項(xiàng)目迅速獲得了 Stable Diffusion 生態(tài)大量插件、發(fā)行版本的支持。
LCM 同時(shí)也發(fā)布了訓(xùn)練腳本,可以支持訓(xùn)練自己的 LCM 大模型(如 LCM-SDXL)或 LCM-LoRA,做到兼顧生成質(zhì)量和速度。只要一次訓(xùn)練,就可以在保持生成質(zhì)量的前提下提速 5 倍。
至此,LCM 生態(tài)體系具備了完整替代 SD 的雛形。
截止至 2023/11/22,已支持 LCM 的開源項(xiàng)目:
Stable Diffusion 發(fā)行版
WebUI(原生支持 LCM-LoRA,LCM 插件支持 LCM-SDXL)、ComfyUI、Fooocus(LCM-LoRA)、DrawThings
小模型
LCM-LoRA 兼容其他 LoRA,ControlNet
AnimateDiff WebUI 插件
計(jì)劃中添加支持的項(xiàng)目:
WebUI 主分支持
訓(xùn)練腳本 Kohya SS
LCM-SDXL、LCM-DreamShaper 專屬的 ControlNet
LCM-AnimateDiff
隨著生態(tài)體系的逐漸發(fā)展,LCM 有潛力作為新一代圖像生成底層完整替代 Stable Diffusion。
未來展望
自 Stable Diffusion 發(fā)布至今,生成成本被緩慢優(yōu)化,而 LCM 的出現(xiàn)使得圖像生成成本直接下降了一個(gè)數(shù)量級(jí)。每當(dāng)革命性的技術(shù)出現(xiàn),都會(huì)帶來重塑產(chǎn)業(yè)的大量機(jī)會(huì)。LCM 至少能在圖像生成成本消失、視頻生成、實(shí)時(shí)生成三大方面給產(chǎn)業(yè)格局帶來重大變化。
1. 圖像生成成本消失
To C 產(chǎn)品端,免費(fèi)替代收費(fèi)。受高昂的 GPU 算力成本限制,以 Midjourney 為代表的大量文生圖服務(wù)選擇免費(fèi)增值作為商業(yè)模型。LCM 使手機(jī)客戶端、個(gè)人電腦 CPU、瀏覽器(WebAssembly)、更容易彈性擴(kuò)容的 CPU 算力都可能在未來滿足圖像生成的算力需求。簡(jiǎn)單的收費(fèi)文生圖服務(wù)如 Midjourney 會(huì)被高質(zhì)量的免費(fèi)服務(wù)替代。
To B 服務(wù)端,減少的生成算力需求會(huì)被增長(zhǎng)的訓(xùn)練算力需求替代。
AI 圖片生成服務(wù)對(duì)算力的需求在峰值和谷底漲落極大,購買服務(wù)器閑置時(shí)間通常超過 50%。這種特點(diǎn)促進(jìn)了大量函數(shù)計(jì)算 GPU(serverless GPU)如美國 Replicate、中國阿里云的蓬勃發(fā)展。
硬件虛擬化方面如國內(nèi)的瑞云、騰訊云等也在浪潮中推出了圖像模型訓(xùn)練相關(guān)虛擬桌面產(chǎn)品。隨著生成算力下放到邊緣、客戶端或更容易擴(kuò)容的 CPU 算力,AI 生圖將普及到各類應(yīng)用場(chǎng)景中,圖像模型微調(diào)的需求會(huì)大幅上漲。在圖像領(lǐng)域,專業(yè)、易用、垂直的模型訓(xùn)練服務(wù)會(huì)成為下一階段云端 GPU 算力的主要消費(fèi)者。
2. 文生視頻
文生視頻目前極高的生成成本制約了技術(shù)的發(fā)展和普及,消費(fèi)級(jí)顯卡只能以緩慢的速度逐幀渲染。以 AnimateDiff WebUI 插件為代表的一批項(xiàng)目?jī)?yōu)先支持了 LCM,使得更多人能參與到文生視頻的開源項(xiàng)目中。更低的門檻必然會(huì)加速文生視頻的普及和發(fā)展。
3. 實(shí)時(shí)渲染
速度的增加催生了大量新應(yīng)用,不斷拓展著所有人的想象空間。
RT-LCM 與 AR
以 RealTime LCM 為先導(dǎo),消費(fèi)級(jí) GPU 上第一次實(shí)現(xiàn)了每秒 10 幀左右的實(shí)時(shí)視頻生成視頻,這在 AR 領(lǐng)域必然產(chǎn)生深遠(yuǎn)的影響。
目前高清、低延時(shí)捕捉重繪視線內(nèi)整個(gè)場(chǎng)景需要極高算力,所以過去 AR 應(yīng)用主要以添加新物體、提取特征后低清重繪部分物體為主。LCM 使得實(shí)時(shí)重繪整個(gè)場(chǎng)景成為可能,在游戲、互動(dòng)式電影、社交等場(chǎng)景中都有無限的想象空間。
未來游戲場(chǎng)景不需新建,帶上 AR 眼鏡,身處的街道立刻轉(zhuǎn)換為霓虹閃爍的賽博朋克未來風(fēng)格供玩家探索;看未來的互動(dòng)式恐怖電影時(shí)帶上 AR 眼鏡,家中熟悉的一切可以無縫融入場(chǎng)景,嚇人的東西就藏在臥室門后。虛擬和現(xiàn)實(shí)將無縫融合,真實(shí)和夢(mèng)境讓人愈發(fā)難以區(qū)分。而這一切底層都可能會(huì)有 LCM 的身影。
交互方式 - 所想即所得(What you imagine is what you get)
由 Krea.ai、ilumine.ai 首先產(chǎn)品化的實(shí)時(shí)圖像編輯 UI 再次降低了創(chuàng)作的門檻、擴(kuò)大了創(chuàng)意的邊界,讓更多人在精細(xì)控制的基礎(chǔ)上獲得了最終畫作的實(shí)時(shí)反饋。
建模軟件 + LCM 探索了 3D 建模的新方向,讓 3D 建模師在所見即所得基礎(chǔ)上更進(jìn)一步,獲得了所想即所得的能力。
手是人類最沒用的東西,因?yàn)槭钟肋h(yuǎn)跟不上腦子的速度。所見即所得(What you see is what you get)太慢,所想即所得(What you imagine is what you get)會(huì)成為未來的創(chuàng)意工作的主流。
LCM 第一次讓展示效果跟上了靈感創(chuàng)意產(chǎn)生的速度。新的交互方式持續(xù)涌現(xiàn),AIGC 革命的終點(diǎn)是將創(chuàng)意的成本、技術(shù)門檻降低至無限接近于 0。不分行業(yè),好的創(chuàng)意將會(huì)從稀缺變?yōu)檫^剩。LCM 將我們向未來又推進(jìn)了一步。
參考資料:
https://latent-consistency-models.github.io/
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。