首頁 > IT資訊>業(yè)界

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

量子位 2022/9/19 12:14:05 責(zé)編：遠生

評論：

古典人像絲滑切換，還都是 4 倍超分辨率水平，細節(jié)也就多了億點點吧，眉毛發(fā)絲都根根分明。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

這就是最近在推特上火了 Stable Diffusion 視頻版 2.0.

它能夠通過 Real-ESRGAN 進行上采樣，讓生成畫面達到 4 倍超分。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

要知道，之前 Stable Diffusion 生成的圖像如果想要高清，還得自己手動提升分辨率。

現(xiàn)在直接二合一，在谷歌 Colab 上就能跑！

食用指南

Colab 上的操作非常簡單，基本上就是傻瓜式按照步驟運行即可。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

需要注意的是，過程中要從個人 Hugging Face 賬戶中復(fù)制 token 登入。

拉取模型前，記得在 Hugging Face 上授權(quán)，否則會出現(xiàn) 403 錯誤。

搞定以上問題后，就能來用 Stable Diffusion 來生成高清視頻了。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

生成一段視頻需要給出 2 個提示詞，然后設(shè)置中間的步數(shù)，以及是否需要上采樣。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

中間步驟越多，生成所需的時間越長；同樣上采樣也會一定程度上加長生成時間。

還能直接用代碼來跑，修改幾個簡單的參數(shù)就能搞定。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

除了線上模式外，該模型還支持本地運行，項目已在 GitHub 上開源。

注意需要額外安裝 Real-ESRGAN。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

超分算法來自騰訊

簡單來說，這次 Stable Diffusion 的變種版本就是把生成的圖片，通過超分辨率方法變得高清。

Stable Diffusion 的原理，是擴散模型利用去噪自編碼器的連續(xù)應(yīng)用，逐步生成圖像。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

一般所言的擴散，是反復(fù)在圖像中添加小的、隨機的噪聲。而擴散模型則與這個過程相反 —— 將噪聲生成高清圖像。訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通常為 U-net。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

不過因為模型是直接在像素空間運行，導(dǎo)致擴散模型的訓(xùn)練、計算成本十分昂貴。

基于這樣的背景下，Stable Diffusion 主要分兩步進行。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

首先，使用編碼器將圖像 x 壓縮為較低維的潛在空間表示 z（x）。

其中上下文（Context）y，即輸入的文本提示，用來指導(dǎo) x 的去噪。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

它與時間步長 t 一起，以簡單連接和交叉兩種方式，注入到潛在空間表示中去。

隨后在 z（x）基礎(chǔ)上進行擴散與去噪。換言之，就是模型并不直接在圖像上進行計算，從而減少了訓(xùn)練時間、效果更好。

再來看超分辨率部分。

用到的方法是騰訊 ARC 實驗室此前開發(fā)的 Real-ESRGAN，被 ICCV 2021 接收。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

它可以更有效地消除低分辯率圖像中的振鈴和 overshoot 偽影；

面對真實風(fēng)景圖片，能更逼真地恢復(fù)細節(jié)，比如樹枝、巖石、磚塊等。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

原理方面，研究人員引出了高階退化過程來模擬出更真實全面的退化，它包含多個重復(fù)的經(jīng)典退化過程，每個又具有不同的退化超參：

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

下圖為 Real-ESRGAN 進行退化模擬的示意圖：

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

采用的是二階退化，具體可分為在模糊（blur）、降噪（noise）、resize、JPGE 壓縮幾個方面。

到訓(xùn)練環(huán)節(jié)，Real-ESRGAN 的生成器用的是 RRDBNet，還擴展了原始的 ×4 ESRGAN 架構(gòu)，以執(zhí)行 resize 比例因子為 ×2 和 ×1 的超分辨率放大。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

想要單獨使用這種超分算法也不是問題。

在 GitHub 上下載該模型的可執(zhí)行文件，Windows / Linux / MacOS 都可以，且不需要 CUDA 或 PyTorch 的支持。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

下好以后只需在終端執(zhí)行以下命令即可使用：

./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png

值得一提的是，Real-ESRGAN 的一作 Wang Xintao 是圖像 / 視頻超分辨率領(lǐng)域的知名學(xué)者。

他本科畢業(yè)于浙江大學(xué)本科，香港中文大學(xué)博士（師從湯曉鷗），現(xiàn)在是騰訊 ARC 實驗室（深圳應(yīng)用研究中心）的研究員。

此前曾登頂 GitHub 熱榜的項目 GFPGAN 也是他的代表作。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

One More Thing

前兩天，大谷老師也發(fā)布了用 Stable Diffusion 生成了一組少女人像，效果非常奈斯。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

順帶讓我們都完成了一下“閱女無數(shù)”的成就（doge）。

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

Stable Diffusion 還能玩出哪些新花樣？你不來試試嗎？

Colab 試玩：

https://colab.research.google.com/github/nateraw/stable-diffusion-videos/blob/main/stable_diffusion_videos.ipynb

GitHub 地址：

https://github.com/nateraw/stable-diffusion-videos

Hugging Face 授權(quán)：

https://huggingface.co/CompVis/stable-diffusion-v1-4

參考

[1]https://twitter.com/_nateraw/status/1569315090314444802
[2]https://www.bilibili.com/video/BV1yd4y1g7Wz?spm_id_from=333.999.0.0

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩

食用指南

超分算法來自騰訊

One More Thing

相關(guān)文章

可生成高清視頻的 Stable Diffusion 來了！分辨率提升 4 倍，超分算法來自騰訊，支持 Colab 在線試玩