字節(jié)跳動豆包視頻生成大模型發(fā)布：首次突破多主體互動難關(guān)，支持多風(fēng)格多比例的一致性多鏡頭生成

2024/9/24 15:05:30 來源：IT之家作者：問舟責(zé)編：問舟

評論：

IT之家 9 月 24 日消息，火山引擎正式發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed 兩款大模型，面向企業(yè)市場開啟邀測，這也意味著字節(jié)跳動正式宣告進軍 AI 視頻生成。IT之家注：新款豆包視頻生成模型目前正在即夢 AI 內(nèi)測版小范圍測試。

該模型支持高效的 DiT 融合計算單元、全新設(shè)計的擴散模型訓(xùn)練方法和深度優(yōu)化的 Transformer 結(jié)構(gòu)，可以實現(xiàn)更充分地壓縮編碼視頻與文本，支持一致性多鏡頭生成，能夠大幅提升視頻生成的泛化能力。

官方介紹稱，無論是語義理解能力，多個主體運動的復(fù)雜交互畫面，還是多鏡頭切換的內(nèi)容一致性，豆包視頻生成大模型均達到業(yè)界先進水平。

火山引擎總裁譚待表示，“視頻生成有很多難關(guān)亟待突破。豆包兩款模型會持續(xù)演進，在解決關(guān)鍵問題上探索更多可能性，加速拓展 AI 視頻的創(chuàng)作空間和應(yīng)用落地?！?/p>

譚待表示，豆包視頻生成大模型支持多風(fēng)格多比例的一致性多鏡頭生成，可應(yīng)用在電商營銷、動畫教育、城市文旅、微劇本等領(lǐng)域。

此外，譚待表示，豆包大模型發(fā)布以來使用量爆發(fā)式增長。截至 9 月，豆包語言模型的日均 tokens 使用量超過 1.3 萬億，相比 5 月首次發(fā)布時猛增十倍，多模態(tài)數(shù)據(jù)處理量也分別達到每天 5000 萬張圖片和 85 萬小時語音。

字節(jié)跳動豆包視頻生成大模型發(fā)布：首次突破多主體互動難關(guān)，支持多風(fēng)格多比例的一致性多鏡頭生成

此前視頻生成模型大多只能完成簡單指令，豆包視頻生成模型則能實現(xiàn)自然連貫的多拍動作與多主體復(fù)雜交互。有創(chuàng)作者在搶鮮體驗豆包視頻生成模型時發(fā)現(xiàn)，其生成的視頻不僅能夠遵循復(fù)雜指令，讓不同人物完成多個動作指令的互動，人物樣貌、服裝細節(jié)甚至頭飾在不同運鏡下也保持一致，接近實拍效果。

據(jù)火山引擎介紹，豆包視頻生成模型基于 DiT 架構(gòu)，通過高效的 DiT 融合計算單元，讓視頻在大動態(tài)與運鏡中自由切換，擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。豆包視頻生成模型具備專業(yè)級光影布局和色彩調(diào)和，畫面視覺極具美感和真實感。

深度優(yōu)化的 Transformer 結(jié)構(gòu)，則大幅提升了豆包視頻生成的泛化能力，支持 3D 動畫、2D 動畫、國畫、黑白、厚涂等多種風(fēng)格，適配電影、電視、電腦、手機等各種設(shè)備的比例，不僅適用于電商營銷、動畫教育、城市文旅、微劇本等企業(yè)場景，也能為專業(yè)創(chuàng)作者和藝術(shù)家們提供創(chuàng)作輔助。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

字節(jié)跳動豆包視頻生成大模型發(fā)布：首次突破多主體互動難關(guān)，支持多風(fēng)格多比例的一致性多鏡頭生成

相關(guān)文章

字節(jié)跳動豆包視頻生成大模型發(fā)布：首次突破多主體互動難關(guān)，支持多風(fēng)格多比例的一致性多鏡頭生成