設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌研制出 AI 編舞師:可根據(jù)音樂來 10 種 freestyle,霹靂、爵士、芭蕾舞隨便選

量子位 2021/9/21 14:40:16 責(zé)編:玉笛

Transformer 又又接新活了 —— 這次谷歌用它搞了一個會根據(jù)音樂跳舞的 AI。

而這個 AI 也憑借著對音樂和舞蹈之間的關(guān)聯(lián)的深刻理解,打敗了 3 個同類模型取得 SOTA,登上了 ICCV 2021。

另外,除了代碼開源,研究團隊還隨之一起公開了一個含有 10 種類型的 3D 舞蹈動作數(shù)據(jù)集。

心動的,搞起來搞起來!

這個 freestyle 怎么來?

前面咱們不是說,這個 AI 用了 Transformer 嗎?

但這里的 Transformer 不是普通的 Transformer,它是一個基于完全注意力機制(Full-Attention)的跨模態(tài) Transformer,簡稱 FACT。

為什么要搞這么復(fù)雜?

因為研究人員發(fā)現(xiàn),光用單純的 Transformer 并不能讓 AI 理解音樂和舞蹈之間的相關(guān)性。

所以,這個 FACT 是怎么做的呢?

總的來說,F(xiàn)ACT 模型采用了獨立的動作和音頻 transformer

首先輸入 2 秒鐘的 seed 動作序列和一段音頻,對其進行編碼。

圖片

然后將 embedding(從語義空間到向量空間的映射)連接起來,送入跨模態(tài) transformer 學(xué)習(xí)兩種形態(tài)的對應(yīng)關(guān)系,并生成 n 個后續(xù)動作序列。

這些序列再被用來進行模型的自監(jiān)督訓(xùn)練。

其中 3 個 transformer 一起學(xué)習(xí),采用的是不用預(yù)處理和特征提取,直接把原始數(shù)據(jù)扔進去得到最終結(jié)果的端到端的學(xué)習(xí)方式。

另外就是在自回歸框架中進行模型測試,將預(yù)期運動作為下一代階段的輸入。

最終,該模型可以逐幀地生成一段(long-range)舞蹈動作。

下圖則展示了該模型通過同一段種子動作(嘻哈風(fēng)格)、不同音樂生成了四種舞蹈作品(霹靂舞、爵士芭蕾、Krump 和 Middle Hip-hop)。

有沒有懂行的點評一下?

圖片

而為了讓 AI 生成的舞蹈生動且和音樂風(fēng)格保持一致,這個模型設(shè)計里面有 3 個關(guān)鍵點:

  • 1、模型內(nèi)部 token 可以訪問所有輸入,因此三個 transformer 都使用一個完全注意力 mask。這使得它比傳統(tǒng)的因果模型更具表現(xiàn)力。

  • 2、不止預(yù)測下一個,該模型還預(yù)測 N 個后續(xù)動作。這有助于模型關(guān)注上下文,避免在幾個生成步驟后出現(xiàn)動作不銜接和跑偏的情況。

  • 3、此外,在訓(xùn)練過程的前期還用了一個 12 層深的跨模態(tài) transformer 模塊來融合兩個 embedding(音頻和動作)。研究人員表示,這是訓(xùn)練模型傾聽分辨輸入音樂的關(guān)鍵。

下面就用數(shù)據(jù)來看看真實性能。

打敗 3 個 SOTA 模型

研究人員根據(jù)三個指標來評估:

  • 1、動作質(zhì)量:用 FID 來計算樣本(也就是他們自己發(fā)布的那個數(shù)據(jù)集,后面介紹)和生成結(jié)果在特征空間之間的距離。一共用了 40 個模型生成的舞蹈序列,每個序列 1200 幀(20 秒)。

FID 的幾何和動力學(xué)特性分別表示為 FIDg 和 FIDk。

  • 2、動作多樣性:通過測量 40 套生成動作在特征空間中的平均歐氏距離(Euclidean distance)得出。

分別用幾何特征空間 Distg 和動力學(xué)特征空間 k 來檢驗?zāi)P蜕筛鞣N舞蹈動作的能力。

  • 3、動作與音樂的相關(guān)性:沒有好的已有指標,他們自己提出了一個“節(jié)拍對齊分數(shù)”來評估輸入音樂(音樂節(jié)拍)和輸出 3D 動作(運動節(jié)拍)之間的關(guān)聯(lián)。

下面是 FACT 和三種 SOTA 模型(Li 等人的、Dancenet、Dance Revolution)的對比結(jié)果:

可以看到,F(xiàn)ACT 在三項指標上全部 KO 了以上三位。

* 由于 Li 等人的模型生成的動作不連續(xù),所以它的平均動力學(xué)特征距離異常高,可以忽略。

看了數(shù)據(jù),咱們再看個更直觀的:

圖片

emmm,相比動作靈活的 FACT,其他兩位看起來都有點“不太聰明”的亞子……

舞蹈動作數(shù)據(jù)集 AIST++

最后,再來簡單介紹一下他們自己打造的這個 3D 舞蹈動作數(shù)據(jù)集 AIST++

看名字你也發(fā)現(xiàn)了,這是基于現(xiàn)有的舞蹈數(shù)據(jù)集 AIST 的“加強版”,主要是在原有基礎(chǔ)上加上了 3D 信息。

最終的 AIST++ 一共包含 5.2 小時、1408 個序列的 3D 舞蹈動作,跨越十種舞蹈類型,包括老派和新派的的霹靂舞、Pop、 Lock、Waack,以及 Middle Hip-Hop、LA-style Hip-Hop、House、Krump、街頭爵士和爵士芭蕾,每種舞蹈類型又有 85% 的基本動作和 15% 的高級動作。

(怎么感覺全是街舞啊?)

每個動作都提供了 9 個相機視角,下面展示了其中三個。

圖片

它可以用來支持以下三種任務(wù):多視角的人體關(guān)鍵點估計;人體動作預(yù)測/生成;人體動作和音樂之間的跨模態(tài)分析。

團隊介紹

一作李瑞龍,UC 伯克利一年級博士生,UC 伯克利人工智能研究室成員,F(xiàn)acebook Reality Labs 學(xué)生研究員。

研究方向是計算機視覺和計算機圖形學(xué)的交叉領(lǐng)域,主要為通過 2D 圖像信息生成和重建 3D 世界。

讀博之前還在南加州大學(xué)視覺與圖形實驗室做了兩年的研究助理。

本科畢業(yè)于清華大學(xué)物理學(xué)和數(shù)學(xué)專業(yè)、碩士畢業(yè)于計算機專業(yè),曾在 Google Research 和字節(jié) AI Lab 實習(xí)。

共同一作 Yang Shan,就職于 Google Research。

研究方向包括:應(yīng)用機器學(xué)習(xí)、多模態(tài)感知、3D 計算機視覺與物理仿真。

博士畢業(yè)于北卡羅來納大學(xué)教堂山分校 (UNC,美國 8 所公立常春藤大學(xué)之一)。

David A. Ross,在 Google Research 領(lǐng)導(dǎo) Visual Dynamics 研究小組。

加拿大多倫多大學(xué)機器學(xué)習(xí)和計算機視覺專業(yè)博士畢業(yè)。

Angjoo Kanazawa,馬里蘭大學(xué)博士畢業(yè),現(xiàn)在是 UCB 電氣工程與計算機科學(xué)系的助理教授,在 BAIR 領(lǐng)導(dǎo)旗下的 KAIR 實驗室,同時也是 Google Research 的研究員。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,跳舞

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知