設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

可生成高清視頻的 Stable Diffusion 來了!分辨率提升 4 倍,超分算法來自騰訊,支持 Colab 在線試玩

量子位 2022/9/19 12:14:05 責(zé)編:遠生

古典人像絲滑切換,還都是 4 倍超分辨率水平,細節(jié)也就多了億點點吧,眉毛發(fā)絲都根根分明。

這就是最近在推特上火了 Stable Diffusion 視頻版 2.0.

它能夠通過 Real-ESRGAN 進行上采樣,讓生成畫面達到 4 倍超分。

要知道,之前 Stable Diffusion 生成的圖像如果想要高清,還得自己手動提升分辨率。

現(xiàn)在直接二合一,在谷歌 Colab 上就能跑!

食用指南

Colab 上的操作非常簡單,基本上就是傻瓜式按照步驟運行即可。

需要注意的是,過程中要從個人 Hugging Face 賬戶中復(fù)制 token 登入。

拉取模型前,記得在 Hugging Face 上授權(quán),否則會出現(xiàn) 403 錯誤。

搞定以上問題后,就能來用 Stable Diffusion 來生成高清視頻了。

生成一段視頻需要給出 2 個提示詞,然后設(shè)置中間的步數(shù),以及是否需要上采樣。

中間步驟越多,生成所需的時間越長;同樣上采樣也會一定程度上加長生成時間。

還能直接用代碼來跑,修改幾個簡單的參數(shù)就能搞定。

除了線上模式外,該模型還支持本地運行,項目已在 GitHub 上開源。

注意需要額外安裝 Real-ESRGAN。

超分算法來自騰訊

簡單來說,這次 Stable Diffusion 的變種版本就是把生成的圖片,通過超分辨率方法變得高清。

Stable Diffusion 的原理,是擴散模型利用去噪自編碼器的連續(xù)應(yīng)用,逐步生成圖像。

一般所言的擴散,是反復(fù)在圖像中添加小的、隨機的噪聲。而擴散模型則與這個過程相反 —— 將噪聲生成高清圖像。訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通常為 U-net。

不過因為模型是直接在像素空間運行,導(dǎo)致擴散模型的訓(xùn)練、計算成本十分昂貴。

基于這樣的背景下,Stable Diffusion 主要分兩步進行。

首先,使用編碼器將圖像 x 壓縮為較低維的潛在空間表示 z(x)。

其中上下文(Context)y,即輸入的文本提示,用來指導(dǎo) x 的去噪。

它與時間步長 t 一起,以簡單連接和交叉兩種方式,注入到潛在空間表示中去。

隨后在 z(x)基礎(chǔ)上進行擴散與去噪。換言之,就是模型并不直接在圖像上進行計算,從而減少了訓(xùn)練時間、效果更好。

再來看超分辨率部分。

用到的方法是騰訊 ARC 實驗室此前開發(fā)的 Real-ESRGAN,被 ICCV 2021 接收。

它可以更有效地消除低分辯率圖像中的振鈴和 overshoot 偽影

面對真實風(fēng)景圖片,能更逼真地恢復(fù)細節(jié),比如樹枝、巖石、磚塊等。

原理方面,研究人員引出了高階退化過程來模擬出更真實全面的退化,它包含多個重復(fù)的經(jīng)典退化過程,每個又具有不同的退化超參:

下圖為 Real-ESRGAN 進行退化模擬的示意圖:

采用的是二階退化,具體可分為在模糊(blur)、降噪(noise)、resize、JPGE 壓縮幾個方面。

到訓(xùn)練環(huán)節(jié),Real-ESRGAN 的生成器用的是 RRDBNet,還擴展了原始的 ×4 ESRGAN 架構(gòu),以執(zhí)行 resize 比例因子為 ×2 和 ×1 的超分辨率放大。

想要單獨使用這種超分算法也不是問題。

在 GitHub 上下載該模型的可執(zhí)行文件,Windows / Linux / MacOS 都可以,且不需要 CUDA 或 PyTorch 的支持。

下好以后只需在終端執(zhí)行以下命令即可使用:

./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png

值得一提的是,Real-ESRGAN 的一作 Wang Xintao 是圖像 / 視頻超分辨率領(lǐng)域的知名學(xué)者。

他本科畢業(yè)于浙江大學(xué)本科,香港中文大學(xué)博士(師從湯曉鷗),現(xiàn)在是騰訊 ARC 實驗室(深圳應(yīng)用研究中心)的研究員。

此前曾登頂 GitHub 熱榜的項目 GFPGAN 也是他的代表作。

One More Thing

前兩天,大谷老師也發(fā)布了用 Stable Diffusion 生成了一組少女人像,效果非常奈斯。

順帶讓我們都完成了一下“閱女無數(shù)”的成就(doge)。

Stable Diffusion 還能玩出哪些新花樣?你不來試試嗎?

Colab 試玩:

https://colab.research.google.com/github/nateraw/stable-diffusion-videos/blob/main/stable_diffusion_videos.ipynb

GitHub 地址:

https://github.com/nateraw/stable-diffusion-videos

Hugging Face 授權(quán):

https://huggingface.co/CompVis/stable-diffusion-v1-4

參考

  • [1]https://twitter.com/_nateraw/status/1569315090314444802

  • [2]https://www.bilibili.com/video/BV1yd4y1g7Wz?spm_id_from=333.999.0.0

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:軟件,算法

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知