阿里達(dá)摩院低調(diào)上線文本生成視頻大模型：僅支持英文輸入，已開放試玩

2023/3/22 17:11:50 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

感謝IT之家網(wǎng)友大眼夾、打工軌道人、HH_KK 的線索投遞！

IT之家 3 月 22 日消息，近日，阿里達(dá)摩院已在 AI 模型社區(qū)“魔搭”ModelScope 上線了“文本生成視頻大模型”。

根據(jù)官方介紹，目前文本生成視頻大模型，由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺空間這 3 個(gè)子網(wǎng)絡(luò)組成，整體模型參數(shù)約 17 億，目前僅支持英文輸入。擴(kuò)散模型采用 Unet3D 結(jié)構(gòu)，通過從純高斯噪聲視頻中，迭代去噪的過程，實(shí)現(xiàn)視頻生成的功能。

阿里達(dá)摩院低調(diào)上線文本生成視頻大模型：僅支持英文輸入，已開放試玩

官方介紹稱，本模型適用范圍較廣，能基于任意英文文本描述進(jìn)行推理，生成視頻。一些文本生成視頻示例如下：

A giraffe underneath a microwave.

A giraffe underneath a microwave.（一只在微波爐里的長頸鹿）

阿里達(dá)摩院低調(diào)上線文本生成視頻大模型：僅支持英文輸入，已開放試玩

A goldendoodle playing in a park by a lake.（一只金貴犬在湖邊的公園玩耍）

據(jù)IT之家了解，模型已經(jīng)在創(chuàng)空間和 huggingface 上線，可以直接體驗(yàn)，也可以參考該頁面自行搭建。模型需要硬件配置大約是 16GB 內(nèi)存和 16GB GPU 顯存。在 ModelScope 框架下，通過調(diào)用簡單的 Pipeline 即可使用當(dāng)前模型，其中，輸入需為字典格式，合法鍵值為 'text'，內(nèi)容為一小段文本。該模型暫僅支持在 GPU 上進(jìn)行推理。

從試玩的結(jié)果來看，目前能生成的視頻長度多在 2-4 秒，生成等候時(shí)間從 20 多秒到 1 分多鐘不等。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

阿里達(dá)摩院低調(diào)上線文本生成視頻大模型：僅支持英文輸入，已開放試玩

相關(guān)文章

阿里達(dá)摩院低調(diào)上線文本生成視頻大模型：僅支持英文輸入，已開放試玩