IT之家 8 月 28 日消息,智譜 AI 開源了 CogVideoX-5B 視頻生成模型,相比此前開源的 CogVideoX-2B,官方稱其視頻生成質(zhì)量更高,視覺效果更好。
官方表示大幅度優(yōu)化了模型的推理性能,推理門檻大幅降低,可以在 GTX 1080Ti 等早期顯卡運行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”運行 CogVideoX-5B 模型。
CogVideoX 是一個大規(guī)模 DiT(diffusion transformer)模型,用于文本生成視頻任務(wù),主要采用了以下技術(shù):
3D causal VAE:通過壓縮視頻數(shù)據(jù)到 latent space,并在時間維度上進行解碼來實現(xiàn)高效的視頻重建。
專家 Transformer:將文本 embedding 和視頻 embedding 相結(jié)合,使用 3D-RoPE 作為位置編碼,采用專家自適應(yīng)層歸一化處理兩個模態(tài)的數(shù)據(jù),以及使用 3D 全注意力機制來進行時空聯(lián)合建模。
CogVideoX-5B 與 CogVideoX-2B 詳細參數(shù)比較如下:
IT之家附相關(guān)鏈接:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。