設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 取代人類從網(wǎng)購 / 刷短視頻開始:CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn),讓大模型沖浪比你還溜

新智元 2024/2/11 22:38:58 責(zé)編:問舟

大模型的新考驗(yàn)來了!近日,來自卡內(nèi)基梅隆大學(xué)的研究人員發(fā)布了評(píng)估 LLM 多模態(tài) Web 代理性能的基準(zhǔn)測(cè)試。大模型(LLM)的多模態(tài)和 Agent 能力被做成基準(zhǔn)測(cè)試了!以后哪個(gè) LLM 再掌握不了多模態(tài),干不了 Agent,都不好意思出門了。

近日,來自卡內(nèi)基梅隆大學(xué)(CMU)的研究人員發(fā)布了一個(gè)評(píng)估多模態(tài) Web 代理性能的基準(zhǔn)測(cè)試。

論文地址:https://arxiv.org/ pdf / 2401.13649.pdf
代碼和任務(wù)集:https://github.com/ web-arena-x / visualwebarena

多模態(tài)和代理都是 AI 的發(fā)展趨勢(shì),我們之前也報(bào)道過很多相關(guān)工作,比如幫助人類處理網(wǎng)上購物、會(huì)議等日常任務(wù),比如幫助人類考試「作弊」,還有近來風(fēng)頭正盛的 AI 機(jī)器人,也是人類在物理世界的代理。

而為了訓(xùn)練 AI 掌握這項(xiàng)能力,研究人員花費(fèi)了很多心血,比如聯(lián)合世界各地的著名實(shí)驗(yàn)室,共享機(jī)器人的訓(xùn)練和操作數(shù)據(jù),比如開發(fā)了對(duì)應(yīng)于真實(shí)世界的模擬器用來訓(xùn)練 Agent。

而這次,CMU 的研究人員帶來了 LLM 的考試標(biāo)準(zhǔn),VisualWebArena。VisualWebArena 由一組基于 Web 的多樣化和復(fù)雜的任務(wù)組成,這些任務(wù)評(píng)估自主多模式代理的各種功能:

如上圖所示,這個(gè)基準(zhǔn)測(cè)試中引入了 910 個(gè)新任務(wù),這些任務(wù)來自于分類廣告、購物和 Reddit 網(wǎng)站上。

分類網(wǎng)站是一個(gè)新環(huán)境(具有真實(shí)世界的數(shù)據(jù)),而購物和 Reddit 網(wǎng)站與 WebArena 中使用的網(wǎng)站相同。

為了執(zhí)行這個(gè)基準(zhǔn)測(cè)試,代理(LLM)需要準(zhǔn)確處理圖像文本輸入,解釋自然語言指令,并在網(wǎng)站上執(zhí)行操作以實(shí)現(xiàn)用戶定義的目標(biāo)。比如在維基百科中搜索:

在 Reddit 上搜索、瀏覽和評(píng)論:

在交易網(wǎng)站上查閱和咨詢想要購買的商品,同時(shí)小手一抖,給個(gè)五星:

比如一條龍完成線上購物:

新的基準(zhǔn)測(cè)試引入的任務(wù)需要視覺理解,能夠評(píng)估基于 Web 的環(huán)境中自主代理的視覺和推理技能。

為了評(píng)估 VisualWebArena 的性能,研究人員在 WebArena 的功能評(píng)估范式中引入了新的基于視覺的評(píng)估指標(biāo)。

上圖展示了幾個(gè)評(píng)估示例,通過運(yùn)行基于執(zhí)行的測(cè)試,可以全面評(píng)估開放式視覺基礎(chǔ)任務(wù)上代理軌跡的正確性。

受 Set-of-Mark 提示的啟發(fā),研究人員使用 JavaScript 自動(dòng)注釋網(wǎng)頁上的每個(gè)可交互元素來執(zhí)行初始預(yù)處理步驟,包含邊界框和唯一 ID。

如上圖所示,使用包含邊界框和 ID 的帶注釋屏幕截圖,以及 SoM 的文本表示形式,作為多模態(tài)模型的輸入。

下圖的結(jié)果表明,SoM 表示提高了可導(dǎo)航性,并在 VisualWebArena 上實(shí)現(xiàn)了更高的成功率。

研究人員對(duì)幾個(gè)最先進(jìn)的 LLM 和基于 VLM 提示的代理進(jìn)行了基準(zhǔn)測(cè)試,發(fā)現(xiàn)所有現(xiàn)有的模型都明顯低于人類的表現(xiàn)。

盡管多模態(tài)模型通常會(huì)提高 VisualWebArena 的性能,但仍有很大的差距需要彌合。

VisualWebArena

為了確??芍貜?fù)性、真實(shí)性和確定性,VisualWebArena 框架中的所有網(wǎng)站都可作為獨(dú)立的開源 Web 應(yīng)用程序使用。

網(wǎng)站中可用的文本和視覺內(nèi)容是從現(xiàn)實(shí)世界獲取的,而代碼則基于現(xiàn)實(shí)世界應(yīng)用程序中常用的開源框架。

環(huán)境和智能體可以建模為部分可觀察的馬爾可夫決策過程(POMDP):E =(S,A,Ω,T),其中 S 表示狀態(tài)集,A 表示行動(dòng)集,Ω 表示觀測(cè)值集。

轉(zhuǎn)移函數(shù)定義為 T:S × A → S,狀態(tài)之間的確定性轉(zhuǎn)換以動(dòng)作為條件。在每個(gè)時(shí)間步驟 t 中,環(huán)境都處于某種狀態(tài) s(比如特定頁面),并具有部分觀察 o∈ Ω。

代理以 o 為條件發(fā)出操作 a ∈ A,這將導(dǎo)致新狀態(tài) s ∈ S,以及結(jié)果頁面的新部分觀察 o ∈ Ω。

操作可以是在網(wǎng)頁上執(zhí)行的操作,也可以只是信息搜索任務(wù)的字符串輸出。

最后,定義獎(jiǎng)勵(lì)函數(shù) R :S × A → {0,1} 來衡量任務(wù)執(zhí)行的成功。在 VisualWebArena 中,如果狀態(tài)轉(zhuǎn)換與任務(wù)目標(biāo)的期望一致(即目標(biāo)已實(shí)現(xiàn)),則獎(jiǎng)勵(lì)函數(shù)在最后一步返回 1,否則返回 0。

比如在上圖的第一個(gè)任務(wù)中,獎(jiǎng)勵(lì)函數(shù)評(píng)估訂單是否正確下達(dá)到輸入圖像中提供的確切地址,并包含正確的項(xiàng)目。

觀察空間

觀察空間 Ω 以真實(shí)的 Web 瀏覽體驗(yàn)為模型。觀察結(jié)果包括網(wǎng)頁 URL、打開的選項(xiàng)卡(可能是不同網(wǎng)站的多個(gè)選項(xiàng)卡)以及重點(diǎn)選項(xiàng)卡的網(wǎng)頁內(nèi)容。

在大約 25% 的任務(wù)中,目標(biāo)也會(huì)涉及到圖像(比如上圖的第一個(gè)和第三個(gè)任務(wù))

網(wǎng)頁內(nèi)容可以用幾種不同的方式表示:

原始網(wǎng)頁 HTML 作為文檔對(duì)象模型(DOM)樹,通常用于以前的自治 Web 代理工作。

網(wǎng)頁截圖,表示為 RGB 陣列,在之前的視覺代理工作中已經(jīng)證明了有效性。

輔助功能樹,提供了針對(duì)輔助技術(shù)優(yōu)化的網(wǎng)頁內(nèi)容的結(jié)構(gòu)化和簡(jiǎn)化表示,是 WebArena 用于其基線 LLM 代理的主要表示。

本文引入的一種新的視覺表示,靈感來自標(biāo)記集(SoM)提示。對(duì)于網(wǎng)頁上的每個(gè)可交互元素,用邊界框和 ID 標(biāo)記它,生成一個(gè)屏幕截圖,允許可視化代理通過其唯一 ID 引用頁面上的元素。

操作空間

下表總結(jié)了所有操作類型。操作的參數(shù)是當(dāng)前觀測(cè)值 o 中的唯一元素 ID。

相比于預(yù)測(cè)(x,y)坐標(biāo),這種表示的一個(gè)優(yōu)點(diǎn)是,它允許專注于高級(jí)推理而非低級(jí)控制,因?yàn)樵S多 SOTA 的 VLM 和 LLM 都沒有經(jīng)過明確訓(xùn)練,以如此精細(xì)的粒度引用元素。

對(duì)于具有可訪問性樹表示的代理,參數(shù)是樹中的元素 ID。對(duì)于 SoM 表示,使用當(dāng)前頁面中分配的唯一 ID。

評(píng)估

為了評(píng)估 VisualWebArena 的性能,我們?cè)?WebArena 的功能評(píng)估范式中引入了新的基于視覺的評(píng)估指標(biāo)。這些使我們能夠全面評(píng)估開放式視覺基礎(chǔ)任務(wù)的執(zhí)行軌跡的正確性。每個(gè)任務(wù)的獎(jiǎng)勵(lì)都是使用下面描述的基元手工設(shè)計(jì)的函數(shù)。

上表為分配獎(jiǎng)勵(lì) r(s,a)∈ R :S × A → {0,1} 的各種評(píng)估指標(biāo)。

基于執(zhí)行的獎(jiǎng)勵(lì)原語使我們能夠?qū)Χ鄻踊?、現(xiàn)實(shí)和開放式的任務(wù)進(jìn)行基準(zhǔn)測(cè)試。

根據(jù)不同的任務(wù)場(chǎng)景,目標(biāo)的評(píng)測(cè)可以是「完全匹配」、「必須包括」、「必須不包括」、或者「模糊匹配」。

人類表現(xiàn)

對(duì)比實(shí)驗(yàn)測(cè)量了 7 名大學(xué)生(熟悉網(wǎng)站的商業(yè)版本)在 VisualWebArena 任務(wù)上的成功率。

不過因?yàn)槠渲械囊恍┤诉€協(xié)助創(chuàng)建了任務(wù),為了避免數(shù)據(jù)泄露,這里確保他們不會(huì)被分配到自己創(chuàng)建的任務(wù)。

實(shí)驗(yàn)對(duì)每個(gè)模板一個(gè)任務(wù)進(jìn)行采樣,收集了具有代表性的 230 個(gè)任務(wù)。結(jié)果發(fā)現(xiàn)人類在這項(xiàng)任務(wù)上做得很好,總體成功率為 88.7%。

而在剩下的 11.3% 的任務(wù)中,人類犯的錯(cuò)誤通常是輕微的,例如沒有正確閱讀任務(wù)或錯(cuò)過了目標(biāo)的一部分。

當(dāng)然也有另一種失敗模式,比如受試者在搜索 5-10 分鐘后找不到合適的帖子并放棄,認(rèn)為任務(wù)無法完成。

參考資料:

  • https://arxiv.org/abs/2401.13649

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:web技術(shù),cmu

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知