設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

智譜 AI 發(fā)布視頻生成工具“清影”:30 秒快速生成,免費(fèi)開放體驗

2024/7/26 12:50:11 來源:IT之家 作者:汪淼 責(zé)編:汪淼
感謝IT之家網(wǎng)友 喬十三、USER、已注銷343802、Hi_World 的線索投遞!

IT之家 7 月 26 日消息,智譜 AI 今日宣布,對視頻生成模型進(jìn)行全新升級,并正式推出新一代產(chǎn)品 ——CogVideoX。

圖片

CogVideoX 模型目前已在智譜清言的 PC 端、移動應(yīng)用端以及小程序端正式上線。所有 C 端用戶均可通過智譜清言的 AI 視頻生成功能「清影」(Ying),免費(fèi)體驗 AI 文本生成視頻和圖像生成視頻的服務(wù)。

圖片

據(jù)介紹,CogVideoX 的核心技術(shù)特點(diǎn)如下:

  • 針對內(nèi)容連貫性問題,智譜 AI 自主研發(fā)了一套高效的三維變分自編碼器結(jié)構(gòu)(3D VAE)。該結(jié)構(gòu)能夠?qū)⒃家曨l數(shù)據(jù)壓縮至原始大小的 2%,降低了視頻擴(kuò)散生成模型的訓(xùn)練成本和難度。結(jié)合 3D RoPE 位置編碼模塊,該技術(shù)提升了在時間維度上對幀間關(guān)系的捕捉能力,從而建立了視頻中的長期依賴關(guān)系。

  • 在可控性方面,智譜 AI 打造了一款端到端的視頻理解模型,該模型能夠為大量視頻數(shù)據(jù)生成描述。這一創(chuàng)新增強(qiáng)了模型對文本的理解和對指令的遵循能力,確保生成的視頻更加符合用戶的輸入需求,并能夠處理超長且復(fù)雜的 prompt 指令。

  • 模型采納了一種將文本、時間、空間三維一體融合的 transformer 架構(gòu)。該架構(gòu)摒棄了傳統(tǒng)的 cross attention 模塊,設(shè)計了 Expert Block 以實現(xiàn)文本與視頻兩種不同模態(tài)空間的對齊,并通過 Full Attention 機(jī)制優(yōu)化模態(tài)間的交互效果。

「清影」的主要特點(diǎn)如下:

  • 快速生成:僅需 30 秒即可完成 6 秒視頻的生成。

  • 高效的指令遵循能力:即使是復(fù)雜的 prompt,清影也能準(zhǔn)確理解并執(zhí)行。

  • 內(nèi)容連貫性:生成的視頻能夠較好地還原物理世界中的運(yùn)動過程。

  • 畫面調(diào)度靈活性:例如,鏡頭能夠流暢地跟隨畫面中的三只狗狗移動。

此外,智譜大模型開放平臺 bigmodel.cn 也部署了「清影」。企業(yè)和開發(fā)者可通過 API 調(diào)用式,體驗并使用「清影」的文本生成視頻和圖像生成視頻功能。

IT之家附智譜官網(wǎng)鏈接:https://chatglm.cn/video

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:智譜 AI,生成視頻

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知