看圖看片,對現(xiàn)在的 AI 來說早已不是什么難事。不過讓 AI 分析視頻中的人類動(dòng)作時(shí),傳統(tǒng)基于目標(biāo)檢測的方法會(huì)碰到一個(gè)挑戰(zhàn):靜態(tài)物體的模式與行為動(dòng)作的模式有很大不同,現(xiàn)有系統(tǒng)效果很不理想。
現(xiàn)在,來自上海交大的盧策吾團(tuán)隊(duì)基于這一思路,將整個(gè)任務(wù)分為了兩個(gè)階段:先將像素映射到一個(gè)“基元活動(dòng)”組成的過度空間,然后再用可解釋的邏輯規(guī)則對檢測到的基元做推斷。
△ 左:傳統(tǒng)方法,右:新方法
新方法讓 AI 真正看懂劇里的卷福手在舉杯 (hold),右邊的人在伸手掏東西 (reach for):
對于游戲中的多人場景也能準(zhǔn)確分辨每一個(gè)角色的當(dāng)前動(dòng)作:
甚至連速度飛快的自行車運(yùn)動(dòng)員都能完美跟隨:
能夠像這樣真正理解視頻的 AI,就能在醫(yī)療健康護(hù)理、指引、警戒等機(jī)器人領(lǐng)域應(yīng)用。這篇論文的一作為上海交大博士李永露,曾在 CVPR 2020 連中三篇論文。目前相關(guān)代碼已開源。
知識(shí)驅(qū)動(dòng)的行為理解
要讓 AI 學(xué)習(xí)人類,首先要看看人類是怎么識(shí)別活動(dòng)的。比如說,要分辨走路和跑步,我們肯定會(huì)優(yōu)先關(guān)注腿部的運(yùn)動(dòng)狀態(tài)。再比如,要分辨一個(gè)人是否是在“喝水”,那么他的手是否在握杯,隨后頭又是否接觸杯子,這些動(dòng)作就成為了一個(gè)判斷標(biāo)準(zhǔn)。這些原子性的,或者說共通的動(dòng)作就可以被看作是一種“基元”(Primitive)。
我們正是將一個(gè)個(gè)的基元“組合”推理出整體的動(dòng)作,這就是就是人類的活動(dòng)感知。那么 AI 是否也能基于發(fā)現(xiàn)這種基元的能力,將其進(jìn)行組合,并編程為某個(gè)具有組合概括性的語義呢?因此,盧策吾團(tuán)隊(duì)便提出了一種知識(shí)驅(qū)動(dòng)的人類行為知識(shí)引擎,HAKE(Human Activity Knowledge Engine)。
這是一個(gè)兩階段的系統(tǒng):
將像素映射到由原子活動(dòng)基元跨越的中間空間
用一個(gè)推理引擎將檢測到的基元編程為具有明確邏輯規(guī)則的語義,并在推理過程中更新規(guī)則。
整體來說,上述兩個(gè)階段也可以分為兩個(gè)任務(wù)。首先是建立一個(gè)包括了豐富的活動(dòng)-基元標(biāo)簽的知識(shí)庫,作為推理的“燃料”。在于 702 位參與者合作之后,HAKE 目前已有 35.7 萬的圖像 / 幀,67.3 萬的人像,22 萬的物體基元,以及 2640 萬的 PaSta 基元。
其次,是構(gòu)建邏輯規(guī)則庫和推理引擎。在檢測到基元后,研究團(tuán)隊(duì)使用深度學(xué)習(xí)來提取視覺和語言表征,并以此來表示基元。然后,再用可解釋的符號(hào)推理按照邏輯規(guī)則為基元編程,捕獲因果的原始活動(dòng)關(guān)系。
在實(shí)驗(yàn)中,研究者選取了建立在 HICO 基礎(chǔ)上,包含 4.7 萬張圖片和 600 次互動(dòng)的 HICO-DET,以及包含 430 個(gè)帶有時(shí)空標(biāo)簽的視頻的 AVA,這兩個(gè)大規(guī)模的基準(zhǔn)數(shù)據(jù)集。在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)例級活動(dòng)檢測:即同時(shí)定位活動(dòng)的人 / 物并對活動(dòng)進(jìn)行分類。
結(jié)果,HAKE,在 HICO-DET 上大大提升了以前的實(shí)例級方法,特別是在稀有集上,比 TIN 提高了 9.74mAP(全類平均精度),HAKE 的上限 GT-HAKE 也優(yōu)于最先進(jìn)的方法。在 AVA 上,HAKE 也提高了相當(dāng)多的活動(dòng)的檢測性能,特別是 20 個(gè)稀有的活動(dòng)。
通訊作者曾為李飛飛團(tuán)隊(duì)成員
論文的通訊作者是上海交通大學(xué)的盧策吾,也是計(jì)算機(jī)科學(xué)的教授。在加入上海交大之前,他在中國香港中文大學(xué)獲得了博士學(xué)位,并曾在斯坦福大學(xué)擔(dān)任研究員,在李飛飛團(tuán)隊(duì)工作。現(xiàn)在,他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺、深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)和機(jī)器人視覺。
一作李永露為上海交通大學(xué)的博士生,此前他曾在中國科學(xué)院自動(dòng)化研究所工作。在 CVPR 2020 他連中三篇論文,也都是圍繞知識(shí)驅(qū)動(dòng)的行為理解(Human Activity Understanding)方面的工作。
論文:
https://arxiv.org/abs/2202.06851v1
開源鏈接:
https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。