設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

清華大學(xué)合作推出看圖答題小能手 CogAgent:可告知《原神》游戲操作步驟等

2023/12/27 14:00:06 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 12 月 27 日消息,清華 KEG 實驗室近日和智譜 AI 合作,聯(lián)合推出了新一代圖像理解大模型 CogAgent。

該模型基于此前推出的 CogVLM,通過視覺 GUI Agent,使用視覺模態(tài)(而非文本)對 GUI 界面進(jìn)行更全面直接的感知,從而作出規(guī)劃和決策。

CogAgent 可以接受 1120×1120 的高分辨率圖像輸入,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,在 9 個經(jīng)典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績。

例如,用戶輸入一張關(guān)于 CogVLM 項目的 GitHub 的圖片,然后詢問如何給這個項目點“Star”,然后 CogAgent 就會反饋出結(jié)果。

圖源:中國網(wǎng)科學(xué)

例如用戶輸入一張原神游戲的截圖,可以詢問“當(dāng)前任務(wù)中的隊友是誰?”,CogAgent 會給出相關(guān)的回答。

IT之家附上相關(guān)信息地址如下:

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:清華,AICogAgent

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知