IT之家 3 月 29 日消息,清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技創(chuàng)始人兼首席科學(xué)家朱軍今日發(fā)布了高可控視頻大模型 Vidu Q1,官方宣稱其為業(yè)內(nèi)首個(gè)高可控 AI 視頻大模型。
IT之家從官方獲悉,Vidu Q1 在多主體細(xì)節(jié)可控(特別是動(dòng)作、布局可控)、音效同步可控、畫(huà)質(zhì)增強(qiáng)等方面均取得顯著成效。以多主體細(xì)節(jié)可控為例,在語(yǔ)義指令的基礎(chǔ)上,通過(guò)融入?yún)⒖紙D的視覺(jué)指令,Vidu Q1 支持對(duì)場(chǎng)景中多主體的位置、大小、運(yùn)動(dòng)軌跡等屬性進(jìn)行更進(jìn)一步的可控,對(duì)所有動(dòng)作行為(出場(chǎng)、退場(chǎng)、坐立姿態(tài)、行動(dòng)路線)進(jìn)行精準(zhǔn)調(diào)整。
其支持音效同步可控功能,可確保隨著視頻環(huán)境與畫(huà)面轉(zhuǎn)場(chǎng),Vidu Q1 能夠輸出生成相應(yīng)音效,并可精準(zhǔn)控制每段音效的長(zhǎng)短區(qū)間,精準(zhǔn)設(shè)置每段音頻出現(xiàn)的時(shí)間點(diǎn),如 0-2s 風(fēng)聲、3-5s 雨聲等。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。