設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

字節(jié)跳動(dòng)豆包視頻生成大模型發(fā)布:首次突破多主體互動(dòng)難關(guān),支持多風(fēng)格多比例的一致性多鏡頭生成

2024/9/24 15:05:30 來(lái)源:IT之家 作者:問(wèn)舟 責(zé)編:問(wèn)舟

IT之家 9 月 24 日消息,火山引擎正式發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed 兩款大模型,面向企業(yè)市場(chǎng)開(kāi)啟邀測(cè),這也意味著字節(jié)跳動(dòng)正式宣告進(jìn)軍 AI 視頻生成。IT之家注:新款豆包視頻生成模型目前正在即夢(mèng) AI 內(nèi)測(cè)版小范圍測(cè)試。

該模型支持高效的 DiT 融合計(jì)算單元、全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法和深度優(yōu)化的 Transformer 結(jié)構(gòu),可以實(shí)現(xiàn)更充分地壓縮編碼視頻與文本,支持一致性多鏡頭生成,能夠大幅提升視頻生成的泛化能力。

官方介紹稱,無(wú)論是語(yǔ)義理解能力,多個(gè)主體運(yùn)動(dòng)的復(fù)雜交互畫(huà)面,還是多鏡頭切換的內(nèi)容一致性,豆包視頻生成大模型均達(dá)到業(yè)界先進(jìn)水平。

火山引擎總裁譚待表示,“視頻生成有很多難關(guān)亟待突破。豆包兩款模型會(huì)持續(xù)演進(jìn),在解決關(guān)鍵問(wèn)題上探索更多可能性,加速拓展 AI 視頻的創(chuàng)作空間和應(yīng)用落地?!?/p>

譚待表示,豆包視頻生成大模型支持多風(fēng)格多比例的一致性多鏡頭生成,可應(yīng)用在電商營(yíng)銷、動(dòng)畫(huà)教育、城市文旅、微劇本等領(lǐng)域。

此外,譚待表示,豆包大模型發(fā)布以來(lái)使用量爆發(fā)式增長(zhǎng)。截至 9 月,豆包語(yǔ)言模型的日均 tokens 使用量超過(guò) 1.3 萬(wàn)億,相比 5 月首次發(fā)布時(shí)猛增十倍,多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天 5000 萬(wàn)張圖片和 85 萬(wàn)小時(shí)語(yǔ)音。

此前視頻生成模型大多只能完成簡(jiǎn)單指令,豆包視頻生成模型則能實(shí)現(xiàn)自然連貫的多拍動(dòng)作與多主體復(fù)雜交互。有創(chuàng)作者在搶鮮體驗(yàn)豆包視頻生成模型時(shí)發(fā)現(xiàn),其生成的視頻不僅能夠遵循復(fù)雜指令,讓不同人物完成多個(gè)動(dòng)作指令的互動(dòng),人物樣貌、服裝細(xì)節(jié)甚至頭飾在不同運(yùn)鏡下也保持一致,接近實(shí)拍效果。

據(jù)火山引擎介紹,豆包視頻生成模型基于 DiT 架構(gòu),通過(guò)高效的 DiT 融合計(jì)算單元,讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語(yǔ)言能力。豆包視頻生成模型具備專業(yè)級(jí)光影布局和色彩調(diào)和,畫(huà)面視覺(jué)極具美感和真實(shí)感。

深度優(yōu)化的 Transformer 結(jié)構(gòu),則大幅提升了豆包視頻生成的泛化能力,支持 3D 動(dòng)畫(huà)、2D 動(dòng)畫(huà)、國(guó)畫(huà)、黑白、厚涂等多種風(fēng)格,適配電影、電視、電腦、手機(jī)等各種設(shè)備的比例,不僅適用于電商營(yíng)銷、動(dòng)畫(huà)教育、城市文旅、微劇本等企業(yè)場(chǎng)景,也能為專業(yè)創(chuàng)作者和藝術(shù)家們提供創(chuàng)作輔助。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知