生數(shù)科技發(fā)布高可控視頻大模型 Vidu Q1：可精準(zhǔn)調(diào)整所有動(dòng)作行為

2025/3/29 18:02:08 來(lái)源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 3 月 29 日消息，清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍今日發(fā)布了高可控視頻大模型 Vidu Q1，官方宣稱其為業(yè)內(nèi)首個(gè)高可控 AI 視頻大模型。

IT之家從官方獲悉，Vidu Q1 在多主體細(xì)節(jié)可控（特別是動(dòng)作、布局可控）、音效同步可控、畫(huà)質(zhì)增強(qiáng)等方面均取得顯著成效。以多主體細(xì)節(jié)可控為例，在語(yǔ)義指令的基礎(chǔ)上，通過(guò)融入?yún)⒖紙D的視覺(jué)指令，Vidu Q1 支持對(duì)場(chǎng)景中多主體的位置、大小、運(yùn)動(dòng)軌跡等屬性進(jìn)行更進(jìn)一步的可控，對(duì)所有動(dòng)作行為（出場(chǎng)、退場(chǎng)、坐立姿態(tài)、行動(dòng)路線）進(jìn)行精準(zhǔn)調(diào)整。

其支持音效同步可控功能，可確保隨著視頻環(huán)境與畫(huà)面轉(zhuǎn)場(chǎng)，Vidu Q1 能夠輸出生成相應(yīng)音效，并可精準(zhǔn)控制每段音效的長(zhǎng)短區(qū)間，精準(zhǔn)設(shè)置每段音頻出現(xiàn)的時(shí)間點(diǎn)，如 0-2s 風(fēng)聲、3-5s 雨聲等。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

生數(shù)科技發(fā)布高可控視頻大模型 Vidu Q1：可精準(zhǔn)調(diào)整所有動(dòng)作行為

相關(guān)文章