設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DeepSeek 等秒變操控電腦 AI 智能體,微軟開源工具 OmniParser V2.0 發(fā)布

2025/2/17 9:16:40 來源:IT之家 作者:汪淼 責編:汪淼
感謝IT之家網友 西窗舊事、Snailwang 的線索投遞!

IT之家 2 月 17 日消息,微軟 OmniParser 是一款基于純視覺的 GUI 智能體解析和識別屏幕上可交互圖標的 AI 工具,此前搭配 GPT-4V 可顯著增強識別能力。

2 月 12 日,微軟在官網發(fā)布了 OmniParser 最新版本 V2.0,可將 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模型,變成可以操控計算機的 AI 智能體。

與 V1 版本相比,OmniParser V2 使用了更大規(guī)模的交互元素檢測數據和圖標功能標題數據進行了訓練,在檢測較小的可交互 UI 元素時準確率更高、推理速度更快,延遲降低了 60%。

在高分辨率 Agent 基準測試 ScreenSpot Pro 中,V2+GPT-4o 的準確率達到了 39.6%,而 GPT-4o 原始準確率只有 0.8%。

為了能夠更快地實驗不同的智能體設置,微軟還開源了 OmniTool,這是一個集成了智能體所需一系列基本工具的 Docker 化 Windows 系統(tǒng),涵蓋屏幕理解、定位、動作規(guī)劃和執(zhí)行等功能,也是將大模型變成智能體的關鍵工具。

IT之家附開源地址:

https://github.com/microsoft/OmniParser

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

軟媒旗下網站: IT之家 最會買 - 返利返現優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知