設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源:三尺寸版本、支持理解長視頻和捕捉事件等能力

2025/1/28 7:48:15 來源:IT之家 作者:歸瀧(實(shí)習(xí)) 責(zé)編:歸瀧
感謝IT之家網(wǎng)友 Hi_World、Skyraver 的線索投遞!

IT之家 1 月 28 日消息,阿里通義千問官方今日發(fā)文宣布,開源全新的視覺理解模型 Qwen2.5-VL——Qwen 模型家族的旗艦視覺語言模型,推出了 3B、7B 和 72B 三個尺寸版本。

IT之家附 Qwen2.5-VL 的主要特點(diǎn)如下:

  • 視覺理解:Qwen2.5-VL 不僅擅長識別常見物體,如花、鳥、魚和昆蟲,還能夠分析圖像中的文本、圖表、圖標(biāo)、圖形和布局。

  • 代理:Qwen2.5-VL 直接作為一個視覺 Agent,可以推理并動態(tài)地使用工具,初步具備了使用電腦和使用手機(jī)的能力。

  • 理解長視頻和捕捉事件:Qwen2.5-VL 能夠理解超過 1 小時的視頻,并且這次它具備了通過精準(zhǔn)定位相關(guān)視頻片段來捕捉事件的新能力。

  • 視覺定位:Qwen2.5-VL 可以通過生成 bounding boxes 或者 points 來準(zhǔn)確定位圖像中的物體,并能夠?yàn)樽鴺?biāo)和屬性提供穩(wěn)定的 JSON 輸出。

  • 結(jié)構(gòu)化輸出:對于發(fā)票、表單、表格等數(shù)據(jù),Qwen2.5-VL 支持其內(nèi)容的結(jié)構(gòu)化輸出,惠及金融、商業(yè)等領(lǐng)域的應(yīng)用。

據(jù)官方介紹,在旗艦?zāi)P?Qwen2.5-VL-72B-Instruct 的測試中,它在一系列涵蓋多個領(lǐng)域和任務(wù)的基準(zhǔn)測試中表現(xiàn)出色,包括大學(xué)水平的問題、數(shù)學(xué)文檔理解視覺問答、視頻理解和視覺 Agent。Qwen2.5-VL 在理解文檔和圖表方面具有優(yōu)勢,并且能夠作為視覺 Agent 進(jìn)行操作,而無需特定任務(wù)的微調(diào)。

圖片

另外,在較小的模型方面,Qwen2.5-VL-7B-Instruct 在多個任務(wù)中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作為端側(cè) AI 的潛力股,超越了之前版本 Qwen2-VL 的 7B 模型

圖片

圖片

阿里通義千問官方表示,與 Qwen2-VL 相比,Qwen2.5-VL 增強(qiáng)了模型對時間和空間尺度的感知能力,并進(jìn)一步簡化了網(wǎng)絡(luò)結(jié)構(gòu)以提高模型效率。后續(xù)將進(jìn)一步提升模型的問題解決和推理能力,同時整合更多模態(tài),使模型變得更加智能,并向能夠處理多種輸入類型和任務(wù)的綜合全能模型邁進(jìn)。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:阿里,通義千問,Qwen2.5VL

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知