阿里巴巴推出 AtomoVideo 高保真圖生視頻框架,兼容多種文生圖模型

2024/3/7 11:10:04 來(lái)源:IT之家 作者:泓澄(實(shí)習(xí)) 責(zé)編:汪淼
感謝IT之家網(wǎng)友 地板轟鳴 的線(xiàn)索投遞!

IT之家 3 月 7 日消息,阿里巴巴研究團(tuán)隊(duì)近日推出了 AtomoVideo 高保真圖生視頻(I2V,Image to Video)框架,旨在從靜態(tài)圖像生成高質(zhì)量的視頻內(nèi)容,并與各種文生圖(T2I)模型兼容。

AtomoVideo 演示

▲ 圖源 AtomoVIdeo 團(tuán)隊(duì)論文

IT之家總結(jié) AtomoVideo 特性如下:

  • 高保真度:生成的視頻與輸入圖像在細(xì)節(jié)與風(fēng)格上保持高度一致性

  • 運(yùn)動(dòng)一致性:視頻動(dòng)作流暢,確保時(shí)間上的一致性,不會(huì)出現(xiàn)突兀的跳轉(zhuǎn)

  • 視頻幀預(yù)測(cè):通過(guò)迭代預(yù)測(cè)后續(xù)幀的方式,支持長(zhǎng)視頻序列的生成

  • 兼容性:與現(xiàn)有的多種文生圖(T2I)模型兼容

  • 高語(yǔ)義可控性:能夠根據(jù)用戶(hù)的特定需求生成定制化的視頻內(nèi)容

AtomoVideo 圖生視頻流程

▲ 圖源 AtomoVIdeo 團(tuán)隊(duì)論文

AtomoVideo 使用預(yù)先訓(xùn)練好的 T2I 模型為基礎(chǔ),在每個(gè)空間卷積層和注意力層之后新添加一維時(shí)空卷積和注意力模塊,T2I 模型參數(shù)固定,只訓(xùn)練添加的時(shí)空層。由于輸入的串聯(lián)圖像信息僅由 VAE 編碼,代表的是低層次信息,有助于增強(qiáng)視頻相對(duì)于輸入圖像的保真度。同時(shí),團(tuán)隊(duì)還以 Cross-Attention 的形式注入高級(jí)圖像語(yǔ)義,以實(shí)現(xiàn)更高的圖像語(yǔ)義可控性。

目前,該團(tuán)隊(duì)只發(fā)布了 AtomoVideo 的論文及演示視頻,并未提供在線(xiàn)體驗(yàn)地址。同時(shí)官方開(kāi)設(shè)了 GitHub 賬戶(hù),但僅用作官方網(wǎng)站托管,并未上傳任何相關(guān)代碼。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:阿里巴巴,人工智能大模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知