設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

游戲 NPC 不再是站樁工具人,AI 憑對(duì)話內(nèi)容生成 3D 動(dòng)作,真實(shí)度超越人類

量子位 2022/11/19 14:47:10 責(zé)編:遠(yuǎn)生
感謝IT之家網(wǎng)友 Sancu 的線索投遞!

你有沒(méi)有看過(guò)油管很火的外國(guó)小姐姐模仿游戲 NPC 視頻?

來(lái)自 YouTube@Loczniki official

這僵硬的姿勢(shì)、空洞的眼神、面癱的表情,讓游戲玩家們直呼 DNA 動(dòng)了!

如果你也苦于此很久了,現(xiàn)在,網(wǎng)易的一項(xiàng)新技術(shù)將輕松改變這一局面:

只需一段語(yǔ)音,AI 就能自動(dòng)生成 3D 對(duì)話動(dòng)作,效果甚至超越真人

不僅能按角色的性別、說(shuō)話的習(xí)慣和姿態(tài),合成不同風(fēng)格的動(dòng)作,還可自由替換或指定待定動(dòng)作。

左圖為男性,右圖是女性

目前,該技術(shù)已在語(yǔ)音合成手勢(shì)動(dòng)作領(lǐng)域的權(quán)威賽事 GENEA 2022 上斬獲第一,并被 ICMI 2022 收錄。

效果超越真人的新技術(shù)

在此之前,業(yè)界最常用的語(yǔ)音合成對(duì)話動(dòng)作技術(shù)是 StyleGestures。

該技術(shù)由美國(guó)藝電(Electronic Arts)推出,曾在 2 年前的第一屆 GENEA 2020 中取得第一。

但與真實(shí)動(dòng)捕數(shù)據(jù)相比,StyleGestures 合成的動(dòng)作仍有明顯的機(jī)械感,且缺少可控性,不同的語(yǔ)音合成效果很隨機(jī),有種碰運(yùn)氣的感覺(jué)。

為了解決這兩個(gè)問(wèn)題,網(wǎng)易的新技術(shù)分為離線的數(shù)據(jù)庫(kù)構(gòu)建和在線的語(yǔ)音驅(qū)動(dòng)動(dòng)作合成兩個(gè)模塊進(jìn)行。

數(shù)據(jù)庫(kù)構(gòu)建

GENEA 2022 主辦方發(fā)布的 18 小時(shí)數(shù)據(jù)集中,包括不同說(shuō)話人的語(yǔ)音、文本和對(duì)應(yīng)的全身動(dòng)作。

由于沒(méi)有經(jīng)過(guò)人工的清洗和處理,導(dǎo)致動(dòng)作數(shù)據(jù)中有很大一部分的動(dòng)作質(zhì)量較差。

因此,研究人員需要先對(duì)此進(jìn)行預(yù)處理:舍棄動(dòng)作質(zhì)量較差的數(shù)據(jù)、完善不帶手指旋轉(zhuǎn)信息的動(dòng)作、再通過(guò)左右對(duì)稱的方式生成更多的數(shù)據(jù)集。

其次,根據(jù)說(shuō)話文本單詞之間的時(shí)間間隔,將連續(xù)的文本切分為短片段

并且針對(duì)時(shí)長(zhǎng)小于 1s 的連續(xù)動(dòng)作進(jìn)行合并,對(duì)左右半身的動(dòng)作進(jìn)行鏡像擴(kuò)充,最終得到約 6000 個(gè)全身動(dòng)作片段,以及時(shí)長(zhǎng)范圍從 1s 的短句到超過(guò) 10s 的長(zhǎng)句。

接下來(lái)是對(duì)動(dòng)作節(jié)奏和語(yǔ)音節(jié)奏進(jìn)行自動(dòng)標(biāo)注。

動(dòng)作方面,說(shuō)話人每做出一個(gè)變化的手勢(shì),就對(duì)應(yīng)于一個(gè)節(jié)奏變化的時(shí)間點(diǎn),簡(jiǎn)單來(lái)說(shuō)就是特定單詞重音時(shí)需要手勢(shì)進(jìn)行一次變化,即手勢(shì)有一個(gè)明顯的速度變化的過(guò)程。

因此通過(guò)計(jì)算雙手速度的極小值,把每個(gè)極小值的時(shí)間點(diǎn)作為節(jié)奏的時(shí)間點(diǎn),最后每個(gè)動(dòng)作片段的節(jié)奏可以表示為長(zhǎng)度為 32 位的 0-1 向量,1 表示手勢(shì)動(dòng)作變化的時(shí)間點(diǎn)。

語(yǔ)音方面,根據(jù)語(yǔ)音對(duì)應(yīng)文本中的每個(gè)單詞時(shí)間點(diǎn)信息,同樣可以得到語(yǔ)音對(duì)應(yīng)的節(jié)奏。

如下圖所示,每個(gè)語(yǔ)音片段的節(jié)奏可以表示為長(zhǎng)度為 32 位的 0-1 向量,1 表示單詞出現(xiàn)的時(shí)間點(diǎn)。

最后,在對(duì)每個(gè)動(dòng)作片段建立動(dòng)作節(jié)奏后,還需要建立動(dòng)作圖。

動(dòng)作圖是一個(gè)有向圖,圖中的每個(gè)節(jié)點(diǎn)表示一個(gè)動(dòng)作片段,兩個(gè)節(jié)點(diǎn)之間的連邊則表示這兩個(gè)動(dòng)作之間過(guò)渡的代價(jià)。

過(guò)渡代價(jià)越小,也就意味著兩個(gè)動(dòng)作之間的過(guò)渡越自然,這一步可以幫助將離散的動(dòng)作片段合并為長(zhǎng)的平滑過(guò)渡的全身動(dòng)作序列。

語(yǔ)音驅(qū)動(dòng)動(dòng)作合成

在離線建立動(dòng)作庫(kù)之后,就可以輸入任意一段語(yǔ)音和對(duì)應(yīng)的文本進(jìn)行在線合成。

在對(duì)語(yǔ)音和文本進(jìn)行算法自動(dòng)切分后,利用訓(xùn)練后的 StyleGestures 這一概率生成式的神經(jīng)網(wǎng)絡(luò)模型,生成期望的動(dòng)作。

其中,上半身的動(dòng)作最為重要,研究人員利用動(dòng)態(tài)規(guī)劃算法,從構(gòu)建的動(dòng)作圖中搜索動(dòng)作節(jié)奏和動(dòng)作風(fēng)格嵌入匹配誤差最小的動(dòng)作序列,同時(shí)保證前后動(dòng)作的過(guò)渡代價(jià)小、過(guò)渡自然,最后輸出一個(gè)節(jié)奏匹配的上半身動(dòng)作序列。

下半身動(dòng)作的合成則不用考慮節(jié)奏,只考慮下半身動(dòng)作之間過(guò)渡的自然性即可,同樣經(jīng)過(guò)圖優(yōu)化得到一個(gè)下半身動(dòng)作序列。

最后,采用混合的方式融合上下半身動(dòng)作,就得到了和語(yǔ)音文本匹配的全身動(dòng)作序列。

與其他參賽系統(tǒng)相比,網(wǎng)易的新方法在在人類相似性評(píng)估中取得了最高的中位數(shù)分?jǐn)?shù),甚至超越了真實(shí)人類水平。

在適當(dāng)性評(píng)價(jià)中,該方法在上半身表現(xiàn)中排名第一,在全身表現(xiàn)中排名第二。

研究團(tuán)隊(duì)

研究團(tuán)隊(duì)來(lái)自網(wǎng)易互娛 AI Lab,作者共三人。

研究人員指出,這項(xiàng)新技術(shù)不僅可用于游戲中,虛擬角色線上演講、數(shù)字人動(dòng)作動(dòng)畫合成、元宇宙形象等等場(chǎng)景也都能使用。

論文鏈接附在文末,感興趣的小伙伴可以自取~

論文鏈接:

https://dl.acm.org/doi/pdf/10.1145/3536221.3558063

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:羿閣

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知