IT之家 1 月 2 日消息,清華大學智能產(chǎn)業(yè)研究院(AIR)于 2024 年 12 月 24 日發(fā)布論文,介紹推出 AutoDroid-V2 AI 模型,在移動設備上利用小語言模型,顯著提升了自然語言控制的自動化程度。
該系統(tǒng)采用基于腳本的方法,利用設備端小型語言模型(SLM)的編碼能力,高效執(zhí)行用戶指令。相比依賴云端大型語言模型(LLM)的傳統(tǒng)方法,AutoDroid-V2 在效率、隱私和安全性方面均有顯著優(yōu)勢。
項目背景
大型語言模型(LLMs)和視覺語言模型(VLM)通過自然語言命令,徹底改變了移動設備控制的自動化,為復雜的用戶任務提供了解決方案。
自動化控制設備主流采用“逐步 GUI 智能體”(Step-wise GUI agents)方式,通過在每個 GUI 狀態(tài)查詢,LLM 進行動態(tài)決策和反思、持續(xù)處理用戶的任務,并觀察 GUI 狀態(tài)直至完成來進行操作。
但這種方式嚴重依賴基于云端的模型,在分享個人 GUI 頁面時,還存在隱私和安全風險,此外還存在大量的用戶端流量消耗以及高昂的服務器端集中服務成本等嚴重問題,阻礙大規(guī)模部署 GUI 智能體。
項目簡介
不同于傳統(tǒng)的逐步操作,AutoDroid-V2 根據(jù)用戶指令生成多步驟腳本,一次性執(zhí)行多個 GUI 操作,大幅減少了查詢頻率和資源消耗。
利用設備上的小型語言模型進行腳本生成和執(zhí)行,避免了對強大云端模型的依賴,有效保護了用戶隱私和數(shù)據(jù)安全,并降低了服務器端成本。
該模型在離線階段會構建應用程序文檔,包含 AI 引導的 GUI 狀態(tài)壓縮、元素 XPath 自動生成和 GUI 依賴分析,為腳本生成奠定基礎。
此外用戶提交任務請求后,本地 LLM 生成多步驟腳本,由特定域解釋器執(zhí)行,確??煽扛咝У倪\行。
性能
基準測試上,在 23 個移動應用上測試 226 項任務,與 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基線相比,任務完成率提高 10.5%-51.7%。
在資源消耗方面,輸入和輸出 token 消耗分別減少至 43.5 分之一和 5.8 分之一,LLM 推理延遲降低至 5.7~13.4 分之一。
跨 LLM 測試中,在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表現(xiàn)一致,成功率 44.6%-54.4%,反向冗余比 90.5%-93.0%。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。