IT之家 1 月 20 日消息,香港大學(xué)攜手快手科技,組建科研團(tuán)隊(duì),提出名為 GameFactory 的創(chuàng)新框架,目標(biāo)是解決游戲視頻生成中的場景泛化難題。該框架利用在開放域視頻數(shù)據(jù)上預(yù)訓(xùn)練的視頻擴(kuò)散模型,能夠創(chuàng)造全新且多樣化的游戲場景。
項(xiàng)目背景
視頻擴(kuò)散模型已成為強(qiáng)大的視頻生成和物理模擬工具,在游戲引擎開發(fā)方面展現(xiàn)出巨大潛力。這些生成式游戲引擎的功能類似于具有動(dòng)作可控性的視頻生成模型,可以響應(yīng)用戶的鍵盤和鼠標(biāo)等輸入。
該領(lǐng)域的一個(gè)關(guān)鍵挑戰(zhàn)是場景泛化,即創(chuàng)建超越現(xiàn)有場景的新游戲場景的能力。雖然收集大規(guī)模的動(dòng)作標(biāo)注視頻數(shù)據(jù)集是實(shí)現(xiàn)這一目標(biāo)最直接的方法,但這種標(biāo)注成本高昂,對(duì)于開放域場景來說并不實(shí)際,這種局限性阻礙開發(fā)多功能游戲引擎,在生成多樣化和新穎游戲環(huán)境方面面臨諸多挑戰(zhàn)。
現(xiàn)有視頻生成和游戲物理學(xué)領(lǐng)域也涌現(xiàn)了諸多突破方式,其中一個(gè)潛力方向就是視頻擴(kuò)散模型。這些模型已經(jīng)從 U-Net 架構(gòu)發(fā)展到基于 Transformer 的架構(gòu),從而能夠生成更逼真、時(shí)長更長的視頻。
例如,Direct-a-Video 方法提供了基本的相機(jī)控制,MotionCtrl 和 CameraCtrl 則提供了更復(fù)雜的相機(jī)姿態(tài)操控。
在游戲領(lǐng)域,DIAMOND、GameNGen 和 PlayGen 等各種項(xiàng)目都嘗試了特定于游戲的實(shí)現(xiàn),但都存在對(duì)特定游戲和數(shù)據(jù)集過度擬合的問題,場景泛化能力有限。
項(xiàng)目介紹
GameFactory 利用預(yù)訓(xùn)練的視頻擴(kuò)散模型,這些模型在開放域視頻數(shù)據(jù)上進(jìn)行訓(xùn)練,使其能夠生成多樣化的游戲場景,突破了現(xiàn)有方法對(duì)特定游戲數(shù)據(jù)集的過度依賴。
此外,為了克服開放域先驗(yàn)知識(shí)與有限游戲數(shù)據(jù)集之間的域差距,GameFactory 采用了一種獨(dú)特的三階段訓(xùn)練策略:
第一階段:使用 LoRA(Low-Rank Adaptation)微調(diào)預(yù)訓(xùn)練模型,使其適應(yīng)目標(biāo)游戲領(lǐng)域,同時(shí)保留大部分原始參數(shù)。
第二階段:凍結(jié)預(yù)訓(xùn)練參數(shù)和 LoRA,專注于訓(xùn)練動(dòng)作控制模塊,避免風(fēng)格與控制的糾纏。
第三階段:移除 LoRA 權(quán)重,保留動(dòng)作控制模塊參數(shù),使系統(tǒng)能夠在各種開放域場景中生成受控的游戲視頻,而不局限于特定游戲風(fēng)格。
研究還評(píng)估了不同控制機(jī)制的有效性,發(fā)現(xiàn)交叉注意力機(jī)制在處理離散控制信號(hào)(如鍵盤輸入)方面表現(xiàn)優(yōu)于拼接方法,而拼接方法在處理連續(xù)鼠標(biāo)移動(dòng)信號(hào)方面更有效,GameFactory 支持自回歸動(dòng)作控制,能夠生成無限長度的交互式游戲視頻。
研究人員還發(fā)布了高質(zhì)量的動(dòng)作標(biāo)注視頻數(shù)據(jù)集 GF-Minecraft,用于訓(xùn)練和評(píng)估 GameFactory 框架。
IT之家附上參考地址
GameFactory: Creating New Games with Generative Interactive Videos
GameFactory: Leveraging Pre-trained Video Models for Creating New Game
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。