智譜 AI 開源 CogVideoX-5B 視頻生成模型，RTX 3060 顯卡可運行

2024/8/28 8:49:49 來源：IT之家作者：沛霖（實習(xí)） 責(zé)編：沛霖

評論：

IT之家 8 月 28 日消息，智譜 AI 開源了 CogVideoX-5B 視頻生成模型，相比此前開源的 CogVideoX-2B，官方稱其視頻生成質(zhì)量更高，視覺效果更好。

官方表示大幅度優(yōu)化了模型的推理性能，推理門檻大幅降低，可以在 GTX 1080Ti 等早期顯卡運行 CogVideoX-2B ，在 RTX 3060 等桌面端“甜品卡”運行 CogVideoX-5B 模型。

CogVideoX 是一個大規(guī)模 DiT（diffusion transformer）模型，用于文本生成視頻任務(wù)，主要采用了以下技術(shù)：

3D causal VAE：通過壓縮視頻數(shù)據(jù)到 latent space，并在時間維度上進行解碼來實現(xiàn)高效的視頻重建。
專家 Transformer：將文本 embedding 和視頻 embedding 相結(jié)合，使用 3D-RoPE 作為位置編碼，采用專家自適應(yīng)層歸一化處理兩個模態(tài)的數(shù)據(jù)，以及使用 3D 全注意力機制來進行時空聯(lián)合建模。

CogVideoX-5B 與 CogVideoX-2B 詳細參數(shù)比較如下：

智譜 AI 開源 CogVideoX-5B 視頻生成模型，RTX 3060 顯卡可運行

IT之家附相關(guān)鏈接：

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

智譜 AI 開源 CogVideoX-5B 視頻生成模型，RTX 3060 顯卡可運行