設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 終于能生成流暢 3D 動作片了,不同動作過渡銜接不出 bug,準確識別文本指令

量子位 2022/10/6 18:07:51 責(zé)編:遠生

讓 3D 動畫小人做一套絲滑的動作,需要手動渲染多久?

現(xiàn)在交給 AI,輸入幾句話就能搞定(不同顏色代表不同動作):

看向地面并抓住高爾夫球桿,揮動球桿,小跑一段,蹲下。

此前,AI 控制的 3D 人體模型基本只能“每次做一個動作”或“每次完成一條指令”,難以連續(xù)完成指令。

現(xiàn)在,無需剪輯或編輯,只需按順序輸入幾條命令,3D 人物就能自動完成每一套動作,全程絲滑無 bug。

這只新 AI 的名字叫 TEACH,來自馬普所和古斯塔夫?艾菲爾大學(xué)。

網(wǎng)友們腦洞大開:

這樣以后拍 3D 動畫電影,是不是只用劇本就能搞定了?

顯然,游戲和仿真行業(yè)可以考慮一下了。

那么,這樣的 3D 人物動作神器是怎么來的呢?

用編碼器“記住”前一個動作

TEACH 的架構(gòu),基于團隊不久前提出的另一個 3D 人體運動生成框架 TEMOS。

TEMOS 基于 Transformer 架構(gòu)設(shè)計,利用人體真實運動數(shù)據(jù)進行訓(xùn)練。

它在訓(xùn)練時會采用兩個編碼器,分別是動作編碼器(Motion Encoder)和文本編碼器(Text Encoder),同時通過動作解碼器(Motion Decoder)輸出。

但在使用時,原本的動作編碼器就會被“扔掉”、只保留文本編碼器,這樣模型直接輸入文本后,就能輸出對應(yīng)的動作。

與其他輸入單一文本、輸出確定性動作的 AI 不同,TEMOS 能通過單一文本,生成多種不同的人體運動。

例如“人繞圈”和“站著走幾步路停下來”這種單一指令,就能生成好幾種不同的運動方式:

轉(zhuǎn)圈方式、走路步幅都不一樣

TEACH 的架構(gòu)正是基于 TEMOS 設(shè)計,動作編碼器直接就從 TEMOS 那兒搬了過來。

但 TEACH 重新設(shè)計了文本編碼器,其中包括一個名叫 Past Encoder 的編碼器,它會在生成每一個動作時,提供前一個動作的上下文,以增加動作與動作之間的連貫性。

如果是一系列指令中的第一個動作,就禁用 Past Encoder,畢竟沒有前一個動作可以學(xué)了。

TEACH 在 BABEL 數(shù)據(jù)集上進行訓(xùn)練,這是一個時長 43 小時的動捕數(shù)據(jù)集,包含過渡動作、整體抽象動作、以及每一幀的具體動作。

在訓(xùn)練時,BABEL 的這一系列動捕數(shù)據(jù)會被切分成很多個子集,每個子集中包含一些過渡動作,讓 TEACH 能學(xué)會過渡并輸出。

至于為什么不用另一個數(shù)據(jù)集 KIT 進行訓(xùn)練,作者們也給出了自己的看法。

例如在動詞類型上,BABEL 出現(xiàn)要比 KIT 更具體,相比之下 KIT 更喜歡用 do / perform 這種“模糊的”詞匯。

研究人員將 TEACH 與 TEMOS 就連續(xù)動作生成效果進行了對比。

比 TEMOS 效果更好

先來看看 TEACH 生成一系列動作的效果,連續(xù)不重樣:

隨后,研究人員將 TEMOS 與 TEACH 進行了對比。

他們使用兩種方法對 TEMOS 模型進行了訓(xùn)練,并分別將它們稱之為 Independent 和 Joint,區(qū)別在于訓(xùn)練用的數(shù)據(jù)上。

其中,Independent 直接用單個動作訓(xùn)練,在生成時將前后兩個動作用對齊、球面線性插值等方式融合在一起;Joint 直接用動作對和分隔開的語言標(biāo)簽作為輸入。

Slerp 是一種線性插值運算,主要用于在兩個表示旋轉(zhuǎn)的四元數(shù)之間平滑插值,讓變換過程看起來更流暢。

以生成“揮揮右手,舉起左手”連續(xù)兩個動作為例。

Independent 的表現(xiàn)效果最差,人物當(dāng)場坐下了;Joint 效果好一點,但人物并沒有舉起左手;效果最好的是 TEACH,在揮動右手后又舉起了左手,最后才放下。

在 BABEL 數(shù)據(jù)集上測試表明,TEACH 的生成誤差是最低的,除此之外 Independent 和 Joint 的表現(xiàn)都不太好。

研究人員還測了測使用上一個動作的最佳幀數(shù),發(fā)現(xiàn)當(dāng)使用前一個動作的 5 幀時,生成的過渡動作效果最好。

作者介紹

Nikos Athanasiou,馬普所在讀研究生,研究方向是多模態(tài) AI,喜歡探索人類行動和語言背后的關(guān)系。

Mathis Petrovich,在古斯塔夫?艾菲爾大學(xué)(Université Gustave Eiffel)讀博,同時也在馬普所工作,研究方向是基于標(biāo)簽或文字說明產(chǎn)生真實的、多樣化人體運動。

Michael J. Black,馬克思?普朗克智能系統(tǒng)研究所主任,如今谷歌學(xué)術(shù)上論文引用次數(shù)達到 62000 + 次。

Gul Varol,古斯塔夫?艾菲爾大學(xué)助理教授,研究方向是計算機視覺、視頻特征學(xué)習(xí)、人體運動分析等。

目前 TEACH 已經(jīng)開源,感興趣的小伙伴們可以戳下方地址體驗了~

GitHub 地址:

https://github.com/athn-nik/teach

論文地址:

https://arxiv.org/abs/2209.04066

本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭簫

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知