設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

智譜 AI 開源 CogVideoX-5B 視頻生成模型,RTX 3060 顯卡可運行

2024/8/28 8:49:49 來源:IT之家 作者:沛霖(實習(xí)) 責(zé)編:沛霖

IT之家 8 月 28 日消息,智譜 AI 開源了 CogVideoX-5B 視頻生成模型,相比此前開源的 CogVideoX-2B,官方稱其視頻生成質(zhì)量更高,視覺效果更好。

官方表示大幅度優(yōu)化了模型的推理性能,推理門檻大幅降低,可以在 GTX 1080Ti 等早期顯卡運行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”運行 CogVideoX-5B 模型。

CogVideoX 是一個大規(guī)模 DiT(diffusion transformer)模型,用于文本生成視頻任務(wù),主要采用了以下技術(shù):

  • 3D causal VAE:通過壓縮視頻數(shù)據(jù)到 latent space,并在時間維度上進行解碼來實現(xiàn)高效的視頻重建。

  • 專家 Transformer:將文本 embedding 和視頻 embedding 相結(jié)合,使用 3D-RoPE 作為位置編碼,采用專家自適應(yīng)層歸一化處理兩個模態(tài)的數(shù)據(jù),以及使用 3D 全注意力機制來進行時空聯(lián)合建模。

CogVideoX-5B 與 CogVideoX-2B 詳細參數(shù)比較如下:

IT之家附相關(guān)鏈接:

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:智譜 AI開源,CogVideoX

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知