設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

GPT-4o 差點(diǎn)沒(méi)及格!首個(gè)多任務(wù)長(zhǎng)視頻評(píng)測(cè)基準(zhǔn),它有億點(diǎn)難

量子位 2024/6/22 16:32:26 責(zé)編:清源

難度大升級(jí)的多任務(wù)長(zhǎng)視頻理解評(píng)測(cè)基準(zhǔn) MLVU 來(lái)了!由智源聯(lián)合北郵、北大和浙大等多所高校推出。究竟有多難呢?最終排名第一的 GPT-4o 單選正確率還不足 65%。

而且研究發(fā)現(xiàn),大部分模型的性能都會(huì)隨著視頻時(shí)長(zhǎng)增加顯著下降。

研究進(jìn)一步證明,提升上下文窗口,提升圖像理解能力,以及使用更強(qiáng)大的 LLM Backbone 對(duì)長(zhǎng)視頻理解的性能具有顯著的提升作用。

目前相關(guān)論文及數(shù)據(jù)集已公開(kāi),具體細(xì)節(jié)下面一起看看吧~

MLVU 的構(gòu)建過(guò)程

當(dāng)前流行的 Video Benchmark 主要針對(duì)短視頻設(shè)計(jì),大部分視頻的長(zhǎng)度都在 1 分鐘以內(nèi)。

且現(xiàn)有評(píng)測(cè)基準(zhǔn)往往專注在特定領(lǐng)域的視頻(例如電影、第一視角)和特定的視頻評(píng)測(cè)任務(wù)(例如 Captioning,Temporal Perception,Action Understanding)。

此外,現(xiàn)有部分長(zhǎng)視頻理解評(píng)測(cè)任務(wù)往往只和局部幀有關(guān),或者針對(duì)經(jīng)典電影進(jìn)行問(wèn)答,這導(dǎo)致 MLLMs 可以直接憑借 text prompt 正確回答而無(wú)需對(duì)視頻進(jìn)行分析。

針對(duì)以上不足,新基準(zhǔn) MLVU 從以下 3 個(gè)層面進(jìn)行構(gòu)建:

時(shí)長(zhǎng)和來(lái)源更豐富

MLVU 的視頻時(shí)長(zhǎng)覆蓋了 3 分鐘到超過(guò) 2 小時(shí),平均視頻時(shí)長(zhǎng) 12 分鐘,極大擴(kuò)展了當(dāng)前流行的 Video Benchmark 的時(shí)長(zhǎng)范圍。

另外,MLVU 的大部分任務(wù)標(biāo)注過(guò)程中進(jìn)行了片段-問(wèn)題對(duì)應(yīng)標(biāo)注。

例如,Video Summarization 任務(wù)分段標(biāo)注了視頻的前 3 分鐘,前 6 分鐘……

這意味著,MLLMs 可以靈活地在 MLVU 上選擇測(cè)試不同時(shí)長(zhǎng)情況下的長(zhǎng)視頻理解能力

同時(shí),MLVU 收集了包括電影、電視劇、紀(jì)錄片、卡通動(dòng)畫(huà)片、監(jiān)控視頻、第一視角視頻和游戲視頻等多個(gè)類型的長(zhǎng)視頻,覆蓋了長(zhǎng)視頻理解的多個(gè)領(lǐng)域范圍。

任務(wù)類別更全面

團(tuán)隊(duì)針對(duì)長(zhǎng)視頻理解設(shè)計(jì)了 9 類不同的任務(wù),并進(jìn)一步將任務(wù)分為三類:全面理解、單細(xì)節(jié)理解、多細(xì)節(jié)理解。

全面理解任務(wù):要求 MLLMs 理解和利用視頻的全局信息來(lái)解決問(wèn)題

單細(xì)節(jié)理解任務(wù):要求 MLLMs 根據(jù)問(wèn)題定位長(zhǎng)視頻中的某一細(xì)節(jié),并利用該細(xì)節(jié)來(lái)解決問(wèn)題

多細(xì)節(jié)理解任務(wù):要去 MLLMs 定位和理解長(zhǎng)視頻中的多個(gè)相關(guān)片段來(lái)完成和解決問(wèn)題

此外,還包括了單項(xiàng)選擇題開(kāi)放生成式問(wèn)題,全面考察 MLLMs 在不同場(chǎng)景下的長(zhǎng)視頻理解能力。

以下為 9 大任務(wù)的示例:

問(wèn)題設(shè)置與答案標(biāo)注更合理

為了突出新舊基準(zhǔn)變化,直接以情節(jié)問(wèn)答(Plot Question Answering)任務(wù)為例。

假如以電影、電視的角色作為問(wèn)題線索來(lái)對(duì) MLLMs 進(jìn)行提問(wèn),舊基準(zhǔn)的常見(jiàn)問(wèn)題有兩種。

一是挑“經(jīng)典”下手,這導(dǎo)致 MLLMs 在沒(méi)有對(duì)視頻進(jìn)行分析的情況下,直接使用了自有知識(shí)回答問(wèn)題。

另一部分試圖避免這個(gè)問(wèn)題,但由于長(zhǎng)視頻的復(fù)雜性,僅僅利用代詞和描述性語(yǔ)句來(lái)指代情節(jié)細(xì)節(jié)非常困難。

他們的問(wèn)題非常寬泛或者需要在問(wèn)題中額外指定具體的時(shí)間片段而不是讓 MLLMs 自己根據(jù)題目尋找對(duì)應(yīng)細(xì)節(jié)。

MLVU 通過(guò)精細(xì)的人工標(biāo)注克服了這些問(wèn)題。

在所有的情節(jié)問(wèn)答任務(wù)中,MLVU 均使用“具有詳細(xì)細(xì)節(jié)的代詞”來(lái)指代情節(jié)中的人物、事件或背景,避免了問(wèn)題泄露帶來(lái)的潛在影響,MLLMs 需要根據(jù)問(wèn)題提供的線索識(shí)別和定位相關(guān)片段才能進(jìn)一步解決問(wèn)題。

此外,MLVU 的 Plot QA 問(wèn)題具備豐富的多樣性,增強(qiáng)了評(píng)測(cè)的合理性和可靠性。

模型在 MLVU 上的表現(xiàn)

團(tuán)隊(duì)在 MLVU 上對(duì) 20 個(gè)流行的 MLLM 進(jìn)行了評(píng)測(cè),包括開(kāi)源模型和閉源模型。

實(shí)驗(yàn)結(jié)果表明,盡管 GPT-4o 在所有任務(wù)中均取得了第 1 名,但它的單選平均準(zhǔn)確率只有 64.6%。

且所有模型都在需要細(xì)粒度理解能力的任務(wù)上(單細(xì)節(jié)、多細(xì)節(jié)理解任務(wù))表現(xiàn)糟糕。

此外,大部分模型的性能都會(huì)隨著視頻時(shí)長(zhǎng)增加顯著下降。

另一明顯結(jié)論是,開(kāi)源模型和閉源模型之間存在較大的差距。

開(kāi)源模型中單項(xiàng)選擇題性能最強(qiáng)的 InternVL-1.5 單選平均準(zhǔn)確度僅有 50.4%;開(kāi)放生成式題目最強(qiáng)的 LLaMA-Vid 得分僅有 4.22,均遠(yuǎn)遠(yuǎn)落后于 GPT-4o 的 64.6% 和 5.80。

不過(guò)研究發(fā)現(xiàn),提升上下文窗口提升 MLLM 的圖像理解能力,以及使用更強(qiáng)大的 LLM Backbone 對(duì)長(zhǎng)視頻理解的性能具有顯著的提升作用。

這揭示了未來(lái) MLLMs 在提升長(zhǎng)視頻理解能力的重要改進(jìn)方向。

論文:

  • https://arxiv.org/abs/2406.04264

項(xiàng)目鏈接:

  • https://github.com/JUNJIE99/MLVU

本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:關(guān)注前沿科技

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:GPT4o,大模型人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知