IT之家 12 月 27 日消息,清華 KEG 實驗室近日和智譜 AI 合作,聯(lián)合推出了新一代圖像理解大模型 CogAgent。
該模型基于此前推出的 CogVLM,通過視覺 GUI Agent,使用視覺模態(tài)(而非文本)對 GUI 界面進(jìn)行更全面直接的感知,從而作出規(guī)劃和決策。
CogAgent 可以接受 1120×1120 的高分辨率圖像輸入,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,在 9 個經(jīng)典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績。
例如,用戶輸入一張關(guān)于 CogVLM 項目的 GitHub 的圖片,然后詢問如何給這個項目點“Star”,然后 CogAgent 就會反饋出結(jié)果。
例如用戶輸入一張原神游戲的截圖,可以詢問“當(dāng)前任務(wù)中的隊友是誰?”,CogAgent 會給出相關(guān)的回答。
IT之家附上相關(guān)信息地址如下:
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。