首頁 > 科學(xué)探索>科技前沿

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

量子位 2022/10/6 18:07:51 責(zé)編：遠生

評論：

讓 3D 動畫小人做一套絲滑的動作，需要手動渲染多久？

現(xiàn)在交給 AI，輸入幾句話就能搞定（不同顏色代表不同動作）：

看向地面并抓住高爾夫球桿，揮動球桿，小跑一段，蹲下。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

此前，AI 控制的 3D 人體模型基本只能“每次做一個動作”或“每次完成一條指令”，難以連續(xù)完成指令。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

現(xiàn)在，無需剪輯或編輯，只需按順序輸入幾條命令，3D 人物就能自動完成每一套動作，全程絲滑無 bug。

這只新 AI 的名字叫 TEACH，來自馬普所和古斯塔夫?艾菲爾大學(xué)。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

網(wǎng)友們腦洞大開：

這樣以后拍 3D 動畫電影，是不是只用劇本就能搞定了？

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

顯然，游戲和仿真行業(yè)可以考慮一下了。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

那么，這樣的 3D 人物動作神器是怎么來的呢？

用編碼器“記住”前一個動作

TEACH 的架構(gòu)，基于團隊不久前提出的另一個 3D 人體運動生成框架 TEMOS。

TEMOS 基于 Transformer 架構(gòu)設(shè)計，利用人體真實運動數(shù)據(jù)進行訓(xùn)練。

它在訓(xùn)練時會采用兩個編碼器，分別是動作編碼器（Motion Encoder）和文本編碼器（Text Encoder），同時通過動作解碼器（Motion Decoder）輸出。

但在使用時，原本的動作編碼器就會被“扔掉”、只保留文本編碼器，這樣模型直接輸入文本后，就能輸出對應(yīng)的動作。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

與其他輸入單一文本、輸出確定性動作的 AI 不同，TEMOS 能通過單一文本，生成多種不同的人體運動。

例如“人繞圈”和“站著走幾步路停下來”這種單一指令，就能生成好幾種不同的運動方式：

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

△ 轉(zhuǎn)圈方式、走路步幅都不一樣

TEACH 的架構(gòu)正是基于 TEMOS 設(shè)計，動作編碼器直接就從 TEMOS 那兒搬了過來。

但 TEACH 重新設(shè)計了文本編碼器，其中包括一個名叫 Past Encoder 的編碼器，它會在生成每一個動作時，提供前一個動作的上下文，以增加動作與動作之間的連貫性。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

如果是一系列指令中的第一個動作，就禁用 Past Encoder，畢竟沒有前一個動作可以學(xué)了。

TEACH 在 BABEL 數(shù)據(jù)集上進行訓(xùn)練，這是一個時長 43 小時的動捕數(shù)據(jù)集，包含過渡動作、整體抽象動作、以及每一幀的具體動作。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

在訓(xùn)練時，BABEL 的這一系列動捕數(shù)據(jù)會被切分成很多個子集，每個子集中包含一些過渡動作，讓 TEACH 能學(xué)會過渡并輸出。

至于為什么不用另一個數(shù)據(jù)集 KIT 進行訓(xùn)練，作者們也給出了自己的看法。

例如在動詞類型上，BABEL 出現(xiàn)要比 KIT 更具體，相比之下 KIT 更喜歡用 do / perform 這種“模糊的”詞匯。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

研究人員將 TEACH 與 TEMOS 就連續(xù)動作生成效果進行了對比。

比 TEMOS 效果更好

先來看看 TEACH 生成一系列動作的效果，連續(xù)不重樣：

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

隨后，研究人員將 TEMOS 與 TEACH 進行了對比。

他們使用兩種方法對 TEMOS 模型進行了訓(xùn)練，并分別將它們稱之為 Independent 和 Joint，區(qū)別在于訓(xùn)練用的數(shù)據(jù)上。

其中，Independent 直接用單個動作訓(xùn)練，在生成時將前后兩個動作用對齊、球面線性插值等方式融合在一起；Joint 直接用動作對和分隔開的語言標(biāo)簽作為輸入。

Slerp 是一種線性插值運算，主要用于在兩個表示旋轉(zhuǎn)的四元數(shù)之間平滑插值，讓變換過程看起來更流暢。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

以生成“揮揮右手，舉起左手”連續(xù)兩個動作為例。

Independent 的表現(xiàn)效果最差，人物當(dāng)場坐下了；Joint 效果好一點，但人物并沒有舉起左手；效果最好的是 TEACH，在揮動右手后又舉起了左手，最后才放下。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

在 BABEL 數(shù)據(jù)集上測試表明，TEACH 的生成誤差是最低的，除此之外 Independent 和 Joint 的表現(xiàn)都不太好。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

研究人員還測了測使用上一個動作的最佳幀數(shù)，發(fā)現(xiàn)當(dāng)使用前一個動作的 5 幀時，生成的過渡動作效果最好。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

作者介紹

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

Nikos Athanasiou，馬普所在讀研究生，研究方向是多模態(tài) AI，喜歡探索人類行動和語言背后的關(guān)系。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

Mathis Petrovich，在古斯塔夫?艾菲爾大學(xué)（Université Gustave Eiffel）讀博，同時也在馬普所工作，研究方向是基于標(biāo)簽或文字說明產(chǎn)生真實的、多樣化人體運動。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

Michael J. Black，馬克思?普朗克智能系統(tǒng)研究所主任，如今谷歌學(xué)術(shù)上論文引用次數(shù)達到 62000 + 次。

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

Gul Varol，古斯塔夫?艾菲爾大學(xué)助理教授，研究方向是計算機視覺、視頻特征學(xué)習(xí)、人體運動分析等。

目前 TEACH 已經(jīng)開源，感興趣的小伙伴們可以戳下方地址體驗了~

GitHub 地址：

https://github.com/athn-nik/teach

論文地址：

https://arxiv.org/abs/2209.04066

本文來自微信公眾號：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令

用編碼器“記住”前一個動作

比 TEMOS 效果更好

作者介紹

相關(guān)文章

AI 終于能生成流暢 3D 動作片了，不同動作過渡銜接不出 bug，準確識別文本指令