設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英偉達 NVLM 1.0 引領多模態(tài) AI 變革:媲美 GPT-4o,不犧牲性能平衡文本和圖像處理難題

2024/9/21 11:53:13 來源:IT之家 作者:故淵 責編:故淵

IT之家 9 月 21 日消息,科技媒體 marktechpost 昨日(9 月 20 日)發(fā)布博文,報道了英偉達(Nvidia)最新發(fā)布的論文,介紹了多模態(tài)大語言模型系列 NVLM 1.0。

多模態(tài)大型語言模型(MLLM)

多模態(tài)大型語言模型(MLLM)所創(chuàng)建的 AI 系統(tǒng),能夠無縫解讀文本和視覺數(shù)據(jù)等,彌合自然語言理解和視覺理解之間的差距,讓機器能夠連貫地處理從文本文檔到圖像等各種形式的輸入。

多模態(tài)大型語言模型在圖像識別、自然語言處理和計算機視覺等領域擁有廣闊應用前景,改進人工智能整合和處理不同數(shù)據(jù)源的方式,幫助 AI 朝著更復雜的應用方向發(fā)展。

英偉達 NVLM 1.0

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三種主要架構。每個架構都結合先進的多模態(tài)推理功能與高效的文本處理功能,從而解決了以往方法的不足之處。

NVLM 1.0 的一個顯著特點是在訓練過程中加入了高質量純文本監(jiān)督微調(SFT)數(shù)據(jù),這使得這些模型在視覺語言任務中表現(xiàn)出色的同時,還能保持甚至提高純文本性能。

研究團隊強調,他們的方法旨在超越 GPT-4V 等現(xiàn)有專有模型和 InternVL 等開放式替代模型。

NVLM 1.0 模型采用混合架構來平衡文本和圖像處理:

  • NVLM-D:純解碼器模型,以統(tǒng)一的方式處理兩種模式,因此特別擅長多模式推理任務。

  • NVLM-X:采用交叉注意機制,提高了處理高分辨率圖像時的計算效率

  • NVLM-H:混合了上述兩種架構的優(yōu)勢,在保持文本推理所需的效率的同時,實現(xiàn)了更詳細的圖像理解。

這些模型結合了高分辨率照片的動態(tài)平鋪技術,在不犧牲推理能力的情況下顯著提高了 OCR 相關任務的性能。

性能

在性能方面,NVLM 1.0 模型在多個基準測試中取得了令人印象深刻的成績。

  • 歸功于在訓練過程中集成了高質量的文本數(shù)據(jù)集,在 MATH 和 GSM8K 等純文本任務中,NVLM-D1.0 72B 模型比其純文本骨干提高了 4.3 分。

  • 在視覺問題解答和推理任務中,這些模型還表現(xiàn)出了強大的視覺語言性能,在 VQAv2 數(shù)據(jù)集上的準確率為 93.6%,在 AI2D 上的準確率為 87.4%。

  • 在 OCR 相關任務中,NVLM 模型的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng),在 DocVQA 和 ChartQA 數(shù)據(jù)集上的準確率分別為 87.4% 和 81.7%,突出顯示了其處理復雜視覺信息的能力。

  • NVLM-X 和 NVLM-H 模型也取得了這些成績,它們在處理高分辨率圖像和多模態(tài)數(shù)據(jù)方面表現(xiàn)出色。

研究的主要發(fā)現(xiàn)之一是,NVLM 模型不僅在視覺語言任務中表現(xiàn)出色,而且還保持或提高了純文本性能,這是其他多模態(tài)模型難以達到的。

例如,在基于文本的推理任務(如 MMLU)中,NVLM 模型保持了較高的準確率,在某些情況下甚至超過了純文本模型。

想象一下在自動駕駛汽車中的應用場景。NVLM 1.0 可以通過攝像頭實時獲取道路信息,并與車輛導航系統(tǒng)進行語言溝通。

它不僅能識別交通標志,還能理解復雜路況下的人類指令,例如“如果前方有施工,請尋找替代路線”。這得益于其強大的視覺-語言處理能力以及出色的文本推理能力,使得自動駕駛更加智能、安全、可靠。

小結

英偉達開發(fā)的 NVLM 1.0 模型代表了多模態(tài)大型語言模型的重大突破,該模型通過在多模態(tài)訓練中集成高質量文本數(shù)據(jù)集,并采用動態(tài)平鋪和高分辨率圖像平鋪標記等創(chuàng)新架構設計,解決了在不犧牲性能的前提下平衡文本和圖像處理的關鍵難題。

NVLM 系列模型不僅在視覺語言任務方面超越了領先的專有系統(tǒng),而且還保持了卓越的純文本推理能力,讓多模態(tài)人工智能系統(tǒng)的發(fā)展又向前邁進一大步。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:英偉達,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知