IT之家 4 月 10 日消息,谷歌為其視頻 AI 模型 Veo 2 推出新功能,旨在幫助用戶更輕松地生成具有電影質(zhì)感的畫面以及編輯真實(shí)視頻。這些新增的 Veo 2 功能目前可通過谷歌云的 Vertex AI 平臺(tái)進(jìn)行預(yù)覽,與此同時(shí),谷歌還對(duì)文本轉(zhuǎn)圖像生成器 Imagen 3 以及音頻相關(guān) AI 模型進(jìn)行了更新。
據(jù)IT之家了解,Veo 2 的新功能包括修復(fù)功能(inpainting)和外擴(kuò)功能(outpainting)。谷歌表示,修復(fù)功能可以自動(dòng)移除視頻中的“不想要的背景圖像、標(biāo)志或干擾元素”,而外擴(kuò)功能則能夠?qū)⒃家曨l的畫面進(jìn)行擴(kuò)展,該工具會(huì)用 AI 生成的視頻片段填充新增的空間,使其與原始片段自然融合,類似于 Adobe 為圖像提供的生成式擴(kuò)展功能。
此次更新還允許 Veo 2 用戶在生成畫面時(shí),將電影拍攝技巧預(yù)設(shè)與文字描述一同選用,以便指導(dǎo)最終結(jié)果中的鏡頭構(gòu)圖、拍攝角度和節(jié)奏。例如,預(yù)設(shè)包括延時(shí)效果、無人機(jī)視角以及模擬不同方向的鏡頭平移等。
此外,Veo 2 新增了一種插值功能,能夠?yàn)閮蓚€(gè)靜態(tài)圖像之間創(chuàng)建視頻過渡,為開頭和結(jié)尾序列填充新的幀。
Adobe 的競(jìng)爭(zhēng)產(chǎn)品 Firefly 視頻模型也具備一些類似的功能,其生成式 AI 視頻擴(kuò)展功能于上周在 Premiere Pro 中推出。谷歌還在其 AI 生成的輸出中加入了 SynthID 數(shù)字歸屬水印,類似于 Adobe 的內(nèi)容憑證系統(tǒng)。不過,Adobe 進(jìn)一步承諾其工具完全可用于商業(yè)用途,因?yàn)樗鼈兪腔谑跈?quán)和公有領(lǐng)域內(nèi)容進(jìn)行訓(xùn)練的,而谷歌在訓(xùn)練其 AI 模型時(shí)大量抓取了網(wǎng)絡(luò)上的內(nèi)容,無法達(dá)到這一標(biāo)準(zhǔn)。
在文本轉(zhuǎn)圖像模型 Imagen 3 方面,谷歌對(duì)其編輯功能進(jìn)行了更新,聲稱可以“顯著”提升自動(dòng)移除物體的效果,使移除干擾元素后的結(jié)果看起來更加自然。Veo 2 和 Imagen 3 已被包括歐萊雅和卡夫亨氏在內(nèi)的公司用于營銷內(nèi)容制作??ǚ蚝嗍系臄?shù)字體驗(yàn)負(fù)責(zé)人賈斯汀?托馬斯表示,過去需要八周才能完成的任務(wù),現(xiàn)在只需八小時(shí)。
在音頻領(lǐng)域,谷歌推出了其文本轉(zhuǎn)音樂模型 Lyria 的私人預(yù)覽版,并為其合成語音模型 Chirp 3 推出了“即時(shí)定制語音”功能。谷歌稱,Chirp 3 現(xiàn)在能夠從 10 秒的音頻輸入中生成“逼真的定制語音”,并且正在推出一項(xiàng)新的轉(zhuǎn)錄功能預(yù)覽,該功能可以識(shí)別并分離出多人對(duì)話中的各個(gè)說話者,從而為多參與者的談話提供更清晰的轉(zhuǎn)錄。
這些更新只是谷歌今日宣布的一系列 AI 相關(guān)消息中的一部分。谷歌效率優(yōu)化型 Flash 模型的最新版本 Gemini 2.5 Flash 即將登陸 Vertex AI。谷歌表示,Gemini 2.5 Flash 會(huì)根據(jù)任務(wù)的復(fù)雜程度“自動(dòng)調(diào)整處理時(shí)間”,以便為簡(jiǎn)單請(qǐng)求提供更快的結(jié)果。
此外,谷歌本周還將更新其面向企業(yè)的 Agentic AI 工具,使 AI 代理能夠在不同平臺(tái)(如 PayPal 和 Salesforce)之間相互溝通并執(zhí)行任務(wù)。同時(shí),谷歌云市場(chǎng)將推出一個(gè)新板塊,供企業(yè)瀏覽和購買由第三方谷歌合作伙伴構(gòu)建的 AI 代理。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。