清華大學(xué)合作推出看圖答題小能手 CogAgent：可告知《原神》游戲操作步驟等

2023/12/27 14:00:06 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 12 月 27 日消息，清華 KEG 實驗室近日和智譜 AI 合作，聯(lián)合推出了新一代圖像理解大模型 CogAgent。

該模型基于此前推出的 CogVLM，通過視覺 GUI Agent，使用視覺模態(tài)（而非文本）對 GUI 界面進(jìn)行更全面直接的感知，從而作出規(guī)劃和決策。

清華大學(xué)合作推出看圖答題小能手 CogAgent：可告知《原神》游戲操作步驟等

CogAgent 可以接受 1120×1120 的高分辨率圖像輸入，具備視覺問答、視覺定位（Grounding）、GUI Agent 等多種能力，在 9 個經(jīng)典的圖像理解榜單上（含 VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE 等）取得了通用能力第一的成績。

例如，用戶輸入一張關(guān)于 CogVLM 項目的 GitHub 的圖片，然后詢問如何給這個項目點“Star”，然后 CogAgent 就會反饋出結(jié)果。

清華大學(xué)合作推出看圖答題小能手 CogAgent：可告知《原神》游戲操作步驟等

圖源：中國網(wǎng)科學(xué)

例如用戶輸入一張原神游戲的截圖，可以詢問“當(dāng)前任務(wù)中的隊友是誰？”，CogAgent 會給出相關(guān)的回答。

清華大學(xué)合作推出看圖答題小能手 CogAgent：可告知《原神》游戲操作步驟等

IT之家附上相關(guān)信息地址如下：

論文：https://arxiv.org/abs/2312.08914
Demo：Streamlit
代碼：https://github.com/THUDM/CogVLM

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

清華大學(xué)合作推出看圖答題小能手 CogAgent：可告知《原神》游戲操作步驟等

相關(guān)文章