<label id="b9ebl"><th id="b9ebl"><track id="b9ebl"></track></th></label>

<span id="b9ebl"><dfn id="b9ebl"></dfn></span>

<label id="b9ebl"><progress id="b9ebl"></progress></label><kbd id="b9ebl"><legend id="b9ebl"></legend></kbd>

首頁

最會(huì)買

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > IT資訊>業(yè)界

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

量子位 2022/3/9 19:53:53 責(zé)編：瀟公子

評論：

看圖看片，對現(xiàn)在的 AI 來說早已不是什么難事。不過讓 AI 分析視頻中的人類動(dòng)作時(shí)，傳統(tǒng)基于目標(biāo)檢測的方法會(huì)碰到一個(gè)挑戰(zhàn)：靜態(tài)物體的模式與行為動(dòng)作的模式有很大不同，現(xiàn)有系統(tǒng)效果很不理想。

現(xiàn)在，來自上海交大的盧策吾團(tuán)隊(duì)基于這一思路，將整個(gè)任務(wù)分為了兩個(gè)階段：先將像素映射到一個(gè)“基元活動(dòng)”組成的過度空間，然后再用可解釋的邏輯規(guī)則對檢測到的基元做推斷。

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

△ 左：傳統(tǒng)方法，右：新方法

新方法讓 AI 真正看懂劇里的卷福手在舉杯 (hold)，右邊的人在伸手掏東西 (reach for)：

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

對于游戲中的多人場景也能準(zhǔn)確分辨每一個(gè)角色的當(dāng)前動(dòng)作：

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

甚至連速度飛快的自行車運(yùn)動(dòng)員都能完美跟隨：

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

能夠像這樣真正理解視頻的 AI，就能在醫(yī)療健康護(hù)理、指引、警戒等機(jī)器人領(lǐng)域應(yīng)用。這篇論文的一作為上海交大博士李永露，曾在 CVPR 2020 連中三篇論文。目前相關(guān)代碼已開源。

知識(shí)驅(qū)動(dòng)的行為理解

要讓 AI 學(xué)習(xí)人類，首先要看看人類是怎么識(shí)別活動(dòng)的。比如說，要分辨走路和跑步，我們肯定會(huì)優(yōu)先關(guān)注腿部的運(yùn)動(dòng)狀態(tài)。再比如，要分辨一個(gè)人是否是在“喝水”，那么他的手是否在握杯，隨后頭又是否接觸杯子，這些動(dòng)作就成為了一個(gè)判斷標(biāo)準(zhǔn)。這些原子性的，或者說共通的動(dòng)作就可以被看作是一種“基元”（Primitive）。

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

我們正是將一個(gè)個(gè)的基元“組合”推理出整體的動(dòng)作，這就是就是人類的活動(dòng)感知。那么 AI 是否也能基于發(fā)現(xiàn)這種基元的能力，將其進(jìn)行組合，并編程為某個(gè)具有組合概括性的語義呢？因此，盧策吾團(tuán)隊(duì)便提出了一種知識(shí)驅(qū)動(dòng)的人類行為知識(shí)引擎，HAKE（Human Activity Knowledge Engine）。

這是一個(gè)兩階段的系統(tǒng)：

將像素映射到由原子活動(dòng)基元跨越的中間空間
用一個(gè)推理引擎將檢測到的基元編程為具有明確邏輯規(guī)則的語義，并在推理過程中更新規(guī)則。

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

整體來說，上述兩個(gè)階段也可以分為兩個(gè)任務(wù)。首先是建立一個(gè)包括了豐富的活動(dòng)-基元標(biāo)簽的知識(shí)庫，作為推理的“燃料”。在于 702 位參與者合作之后，HAKE 目前已有 35.7 萬的圖像 / 幀，67.3 萬的人像，22 萬的物體基元，以及 2640 萬的 PaSta 基元。

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

其次，是構(gòu)建邏輯規(guī)則庫和推理引擎。在檢測到基元后，研究團(tuán)隊(duì)使用深度學(xué)習(xí)來提取視覺和語言表征，并以此來表示基元。然后，再用可解釋的符號(hào)推理按照邏輯規(guī)則為基元編程，捕獲因果的原始活動(dòng)關(guān)系。

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

在實(shí)驗(yàn)中，研究者選取了建立在 HICO 基礎(chǔ)上，包含 4.7 萬張圖片和 600 次互動(dòng)的 HICO-DET，以及包含 430 個(gè)帶有時(shí)空標(biāo)簽的視頻的 AVA，這兩個(gè)大規(guī)模的基準(zhǔn)數(shù)據(jù)集。在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)例級活動(dòng)檢測：即同時(shí)定位活動(dòng)的人 / 物并對活動(dòng)進(jìn)行分類。

結(jié)果，HAKE，在 HICO-DET 上大大提升了以前的實(shí)例級方法，特別是在稀有集上，比 TIN 提高了 9.74mAP（全類平均精度），HAKE 的上限 GT-HAKE 也優(yōu)于最先進(jìn)的方法。在 AVA 上，HAKE 也提高了相當(dāng)多的活動(dòng)的檢測性能，特別是 20 個(gè)稀有的活動(dòng)。

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

通訊作者曾為李飛飛團(tuán)隊(duì)成員

論文的通訊作者是上海交通大學(xué)的盧策吾，也是計(jì)算機(jī)科學(xué)的教授。在加入上海交大之前，他在中國香港中文大學(xué)獲得了博士學(xué)位，并曾在斯坦福大學(xué)擔(dān)任研究員，在李飛飛團(tuán)隊(duì)工作。現(xiàn)在，他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺、深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)和機(jī)器人視覺。

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

一作李永露為上海交通大學(xué)的博士生，此前他曾在中國科學(xué)院自動(dòng)化研究所工作。在 CVPR 2020 他連中三篇論文，也都是圍繞知識(shí)驅(qū)動(dòng)的行為理解（Human Activity Understanding）方面的工作。

上海交大發(fā)布「人類行為理解引擎」：深度學(xué)習(xí) + 符號(hào)推理，AI 逐幀理解大片中每個(gè)動(dòng)作

論文：

https://arxiv.org/abs/2202.06851v1

開源鏈接：

https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：深度學(xué)習(xí)，推理，人工智能，機(jī)器學(xué)習(xí)

軟媒旗下網(wǎng)站： IT之家最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機(jī)APP應(yīng)用魔方最會(huì)買要知

<p id="h3tym"></p>