設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

智譜開源 GLM-PC 基座模型 CogAgent-9B,讓 AI 智能體“看懂”屏幕

2024/12/27 8:11:04 來源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 Skyraver 的線索投遞!

IT之家 12 月 27 日消息,智譜技術(shù)團(tuán)隊(duì)公眾號(hào)昨日(12 月 26 日)發(fā)布博文,宣布開源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 訓(xùn)練,專用于智能體(Agent)任務(wù)。

IT之家注:該模型僅需屏幕截圖作為輸入(無需 HTML 等文本表征),便能根據(jù)用戶指定的任意任務(wù),結(jié)合歷史操作,預(yù)測(cè)下一步的 GUI 操作。

得益于屏幕截圖和 GUI 操作的普適性,CogAgent 可廣泛應(yīng)用于各類基于 GUI 交互的場(chǎng)景,如個(gè)人電腦、手機(jī)、車機(jī)設(shè)備等。

相較于 2023 年 12 月開源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理預(yù)測(cè)準(zhǔn)確性、動(dòng)作空間完善性、任務(wù)普適性和泛化性等方面均實(shí)現(xiàn)了顯著提升,并支持中英文雙語(yǔ)的屏幕截圖和語(yǔ)言交互。

CogAgent 的輸入僅包含三部分:用戶的自然語(yǔ)言指令、已執(zhí)行歷史動(dòng)作記錄和 GUI 截圖,無需任何文本形式表征的布局信息或附加元素標(biāo)簽(set of marks)信息。

其輸出涵蓋以下四個(gè)方面:

  • 思考過程(Status & Plan): CogAgent 顯式輸出理解 GUI 截圖和決定下一步操作的思考過程,包括狀態(tài)(Status)和計(jì)劃(Plan)兩部分,輸出內(nèi)容可通過參數(shù)控制。

  • 下一步動(dòng)作的自然語(yǔ)言描述(Action):自然語(yǔ)言形式的動(dòng)作描述將被加入歷史操作記錄,便于模型理解已執(zhí)行的動(dòng)作步驟。

  • 下一步動(dòng)作的結(jié)構(gòu)化描述(Grounded Operation): CogAgent 以類似函數(shù)調(diào)用的形式,結(jié)構(gòu)化地描述下一步操作及其參數(shù),便于端側(cè)應(yīng)用解析并執(zhí)行模型輸出。其動(dòng)作空間包含 GUI 操作(基礎(chǔ)動(dòng)作,如左鍵單擊、文本輸入等)和擬人行為(高級(jí)動(dòng)作,如應(yīng)用啟動(dòng)、調(diào)用語(yǔ)言模型等)兩類。

  • 下一步動(dòng)作的敏感性判斷:動(dòng)作分為“一般操作”和“敏感操作”兩類,后者指可能帶來難以挽回后果的動(dòng)作,例如在“發(fā)送郵件”任務(wù)中點(diǎn)擊“發(fā)送”按鈕。

CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等數(shù)據(jù)集上進(jìn)行了測(cè)試,并與 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型進(jìn)行了比較。

結(jié)果顯示,CogAgent 在多個(gè)數(shù)據(jù)集上取得了領(lǐng)先的結(jié)果,證明了其在 GUI Agent 領(lǐng)域強(qiáng)大的性能。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:智譜,AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知