快手聯(lián)合推出 Pyramid Flow 開源文生視頻 AI 模型：最高 10 秒 768P@24fps，創(chuàng)新金字塔流匹配讓推理 tokens 降至 1/4

2024/10/12 9:28:42 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 10 月 12 日消息，由快手科技、北京大學(xué)和北京郵電大學(xué)聯(lián)合組建的研究團(tuán)隊(duì)推出 Pyramid Flow 文生視頻模型，用戶在輸入文本之后，即可生成最長 10 秒、分辨率高達(dá) 1280x768、幀率 24fps 的高質(zhì)量視頻。

Pyramid Flow 文生視頻模型主要面向開發(fā)者、藝術(shù)家和創(chuàng)作者等，提供更高效、更靈活的視頻生成解決方案，目前已經(jīng)在 Hugging Face 平臺上線，并完全開源。

IT之家查詢官方介紹，附上 Pyramid Flow 的核心特點(diǎn)如下：

高效生成：Pyramid Flow 采用新技術(shù)，通過統(tǒng)一 AI 模型分階段生成視頻，大多數(shù)階段為低分辨率，只有最后階段為全分辨率。這種“金字塔流匹配”方法保持了視頻的高視覺質(zhì)量前提下，大幅降低了計(jì)算成本，tokens 數(shù)量是傳統(tǒng) diffusion 模型的四分之一。
快速推理：在推理過程中，該模型可以在 56 秒內(nèi)生成一個(gè) 5 秒、384p 的視頻，速度媲美許多全序列 diffusion 模型，甚至更快。
開源和商業(yè)使用：Pyramid-Flow 在 MIT 許可證下發(fā)布，允許廣泛的使用，包括商業(yè)應(yīng)用、修改和再分發(fā)，吸引了希望將模型集成到專有系統(tǒng)中的開發(fā)者和公司。

IT之家附上參考地址

Pyramidal Flow Matching for Efficient Video Generative Modeling
New high quality AI video generator Pyramid Flow launches — and it’s fully open source!
Hugging Face
Github
Pyramidal Flow Matching for Efficient Video Generative Modeling

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

快手聯(lián)合推出 Pyramid Flow 開源文生視頻 AI 模型：最高 10 秒 768P@24fps，創(chuàng)新金字塔流匹配讓推理 tokens 降至 1/4

相關(guān)文章