設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

圖森未來發(fā)布圖生視頻開源大模型“Ruyi”:RTX 4090 就能運(yùn)行,可生成 5 秒內(nèi)容

2024/12/17 11:56:36 來源:IT之家 作者:汪淼 責(zé)編:汪淼

IT之家 12 月 17 日消息,圖森未來今日發(fā)布“Ruyi”圖生視頻大模型,并將 Ruyi-Mini-7B 版本開源,用戶可以從 huggingface 上下載使用。

據(jù)介紹,Ruyi 是一個(gè)基于 DiT 架構(gòu)的圖生視頻模型,它由兩部分構(gòu)成:

  • 一個(gè) Casual VAE 模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓

  • 一個(gè) Diffusion Transformer 負(fù)責(zé)壓縮后的視頻生成

模型的總參數(shù)量約為 7.1B,使用了約 200M 個(gè)視頻片段進(jìn)行訓(xùn)練?!癛uyi”專為在消費(fèi)級顯卡(例如 RTX 4090)上運(yùn)行而設(shè)計(jì),并提供部署說明和 ComfyUI 工作流,以便用戶能夠快速上手。

  • 多分辨率、多時(shí)長生成:Ruyi 支持最小 384*384,最大 1024*1024 分辨率,任意長寬比,最長 120 幀 / 5 秒的視頻生成。

  • 首幀、首尾幀控制生成:Ruyi 可以支持最多 5 個(gè)起始幀、最多 5 個(gè)結(jié)束幀基礎(chǔ)上的視頻生成,通過循環(huán)疊加可以生成任意長度的視頻。

  • 運(yùn)動(dòng)幅度控制:Ruyi 提供了 4 檔運(yùn)動(dòng)幅度控制,方便用戶對整體畫面的變化程度進(jìn)行控制。

  • 鏡頭控制:Ruyi 提供了上、下、左、右、靜止共 5 種鏡頭控制。

Ruyi 是圖森未來正式發(fā)布的第一款“圖生視頻”模型。Ruyi 目前仍然存在手部畸形、多人時(shí)面部細(xì)節(jié)崩壞、不可控轉(zhuǎn)場等問題,圖森未來稱正在改進(jìn)這些缺點(diǎn),在日后的更新中對它們進(jìn)行修復(fù)。

圖森未來表示,公司致力于利用大模型降低動(dòng)漫和游戲內(nèi)容的開發(fā)周期和開發(fā)成本。本次發(fā)布的 Ruyi 大模型,已經(jīng)可以實(shí)現(xiàn)輸入關(guān)鍵幀后,生成之后 5 秒的內(nèi)容,或輸入兩個(gè)關(guān)鍵幀,由模型生成中間的過渡內(nèi)容,降低開發(fā)周期。在下一次的發(fā)布中,圖森未來將同時(shí)發(fā)布兩個(gè)版本,為不同需求的創(chuàng)作者提供更加靈活的選

IT之家附 Ruyi-Mini-7B 開源鏈接如下:

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:圖森未來,圖生視頻

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知