設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 視頻理解天花板:全新 MiniGPT4-Video 刷爆 SOTA,寶格麗宣傳片配文一絕

新智元 2024/4/6 22:32:09 責編:問舟

秒懂視頻的 AI 誕生了!KAUST 和哈佛大學研究團隊提出 MiniGPT4-Video 框架,不僅能理解復雜視頻,甚至還能作詩配文。

幾天前,OpenAI 官方賬號發(fā)布了第一支由 Sora 制作的 MV——Worldweight,引全網(wǎng)圍觀。

AI 視頻,已然成為多模態(tài) LLM 發(fā)展的大趨勢。然而,除了視頻生成,讓 LLM 對復雜視頻進行理解,也至關重要。

最近,來自 KAUST 和哈佛大學的研究人員提出了 MiniGPT4-Video—— 專為視頻理解而設計的多模態(tài)大模型。

論文地址:https://arxiv.org/ pdf / 2404.03413.pdf

值得一提的是,MiniGPT4-Video 能夠同時處理時態(tài)視覺數(shù)據(jù)和文本數(shù)據(jù),因此善于理解視頻的復雜性。比如,上傳一個寶格麗的首飾宣傳視頻。

MiniGPT4-Video 能夠為其配出標題,宣傳語。

再比如,使用虛幻引擎制作的視頻,新模型可以對其進行理解。

能看出這個視頻使用了后期處理和特效,而不是實際拍攝出來的。

甚至,看過一簇簇花盛開的視頻,MiniGPT4-video 即興作出了超美的抒情詩。

基于 MiniGPT-v2,MiniGPT4-video 將其能力擴展到處理幀序列,以便理解視頻。

MiniGPT4-video 不僅考慮了視覺內(nèi)容,還納入了文本對話,使該模型能夠有效地回答涉及視覺和文本內(nèi)容的查詢。

實驗結(jié)果顯示,新方法在 MSVD、MSRVTT、TGIF 和 TVQA 基準上分別提高了 4.22%、1.13%、20.82% 和 13.1%。

接下來,一起看看 MiniGPT4-video 還能做什么?

更多演示

上傳一個寶寶戴眼鏡看書的視頻后,MiniGPT4-video 可以理解搞笑點在哪里。

提取視頻中核心要義,也不在話下。

你還可以讓 MiniGPT4-Video 生成一個創(chuàng)意性的廣告。

解說視頻也是超級厲害。

MiniGPT4-Video 能能夠擁有如此強大視頻解讀能力,究竟是怎么做到的?

技術介紹

MiniGPT-v2 通過將視覺特征轉(zhuǎn)化為 LLM 空間,從而實現(xiàn)了對單幅圖像的理解。

他的結(jié)構如下圖 2 所示,由于 LLM 上下文窗口的限制,每段視頻都要進行幀子采樣,幀數(shù)(N)由 LLM 的上下文窗口決定。

隨后,使用預先訓練好的模型 EVA-CLIP,將視覺幀與文本描述對齊,然后使用線性層將其映射到大型語言模型空間。

與 MiniGPT-v2 類似,研究人員將每幅圖像中每四個相鄰的視覺 token 濃縮為一個 token,從而將每幅圖像的 token 數(shù)減少了 75%,從 256 個減少到 64 個。

在訓練過程中,研究人員會隨數(shù)據(jù)集提供字幕,但在推理過程中或視頻沒有字幕時,研究人員會利用語音到文本模型(如 whisper)生成視頻字幕。

幀字幕使用 LLM tokenizer 進行 token 化,將每個采樣幀的視覺 token 和文本 token 進行連接。指令 token 被附加到輸入序列的末尾,然后模型輸出問題的答案。

訓練流程

大規(guī)模圖像-文本對預訓練

在第一階段,研究人員訓練了一個線性層。

它將由視覺編碼器編碼的視覺特征(例如 EVACLIP )投影到 LLM 的文本空間中,并采用 captioning loss。

研究人員利用了一個結(jié)合的圖像描述數(shù)據(jù)集,包括來自 LAION、概念性標題(Conceptual Captions)和 SBU 的圖像,以將視覺特征與 LLM 的輸入空間對齊。

大規(guī)模視頻-文本對預訓練

在第二階段,研究人員使模型通過輸入多幀來理解視頻。

具體來說,研究人員從每個視頻中抽取最多 N 幀。在此階段,研究人員使用以下模板中的預定義提示:

<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>

抽取的幀數(shù)取決于每個語言模型的上下文窗口,特別是對于 Llama 2,上下文窗口是 4096 個 tokens,而 Mistral 的上下文窗口是 8192 個 tokens。

在研究人員的方法中,他們用了 64 個 tokens 表示每個圖像。

因此,對于 Llama 2,研究人員指定 N=45 幀,相當于 2880 個 tokens 用于視覺內(nèi)容表示。

此外,研究人員為字幕分配 1000 個 tokens,而剩余的 tokens 用于模型輸出。

類似地,在 Mistral 的情況下,上下文窗口加倍,N 相應地加倍到 N=90 幀,以確保與擴展的上下文窗口兼容。

在此提示中,每個 <FrameFeature> 都由視覺主干編碼的采樣視頻幀替換。

<Subtitle text> 代表相應幀的字幕,<Instruction > 代表研究人員預定義的指令集中隨機采樣的指令,包含多種形式的指令,如「簡要描述這些視頻」。

研究人員使用結(jié)合了 CMD 和 WebVid 的視頻描述數(shù)據(jù)進行大規(guī)模視頻描述訓練。

視頻問題解答指令微調(diào)

在這一階段,研究人員采用與第二階段相同的訓練策略,但重點是利用高質(zhì)量的視頻答題數(shù)據(jù)集進行教學微調(diào)。

這一微調(diào)階段有助于提高模型解釋輸入視頻和生成精確回復的能力。

解釋輸入視頻并生成相應的問題。模板與第二階段模板與第二階段的模板相同,但將 <Instruction> 替換為 Video-ChatGPT 數(shù)據(jù)集中提到的一般問題。

實現(xiàn)細節(jié)

在三個訓練階段中,研究人員保持批大小為 4,并使用 AdamW 優(yōu)化器結(jié)合余弦學習率調(diào)度器,將學習率設置為 1e4。

研究人員的視覺主干是 EVA-CLIP,進行了權重凍結(jié)。

值得注意的是,研究人員訓練了線性投影層,并使用 LoRA 對語言模型進行了高效微調(diào)。

具體來說,研究人員微調(diào)了 Wq 和 Wv 組件,排名 (r) 為 64,LoRA-alpha 值為 16。整個模型以一致的 224×224 像素的圖像分辨率進行訓練,確保了所有階段的統(tǒng)一性。

多項基準,刷新 SOTA

為了對最新提出的架構進行全面評估,研究人員評估了三種基準類型的性能:Video-ChatGPT、Open-ended Questions 和 Multiple-Choice Questions (MCQs)。

表 1 所示的 VideoChatGPT 基準測試中,最新模型在沒有字幕的情況下與之前的方法不相上下。

當研究人員將字幕作為輸入時,模型在所有五個維度上都取得了 SOTA。

這驗證了研究人員的模型可以利用字幕信息,來提高視頻的理解。

在另外兩個基準測試評估中,MiniGPT4-Video 明顯優(yōu)于最新的 SOTA 方法。

它在 MSVD、MSRVTT、TGIF 和 TVQA 基準上分別實現(xiàn)了 4.22%、1.13%、20.82% 和 13.1% 的顯著改進。

帶字幕和不帶字幕的結(jié)果進一步表明,將字幕信息與視覺提示集成可顯著提高性能,TVQA 的準確率從 33.9% 提高到 54.21%。

定性結(jié)果

更多的定性結(jié)果,如下圖所示。

最后,研究人員還將 MiniGPT4-video 與 VideoChatGPT 相比較。

可以看出,針對一個問題,最新方法的回復更加全面。

總之,MiniGPT4-video 有效地融合了視頻領域內(nèi)的視覺和對話理解,為視頻問答提供了一個 引人注目的解決方案。

不過,缺陷在于上下文窗口限制。

具體來說,當前版本要求 Llama 2 視頻長度為 45 幀(不到一分半),Mistral 版本的視頻長度為 90 幀(不到三分鐘)。

因此,下一步研究將模型能力擴展到處理更長視頻的能力。

參考資料:

  • https://arxiv.org/pdf/2404.03413.pdf

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:視頻AI,Sora

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知