AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

新智元 2024/2/11 22:38:58 責(zé)編：問舟

評(píng)論：

大模型的新考驗(yàn)來了！近日，來自卡內(nèi)基梅隆大學(xué)的研究人員發(fā)布了評(píng)估 LLM 多模態(tài) Web 代理性能的基準(zhǔn)測(cè)試。大模型（LLM）的多模態(tài)和 Agent 能力被做成基準(zhǔn)測(cè)試了！以后哪個(gè) LLM 再掌握不了多模態(tài)，干不了 Agent，都不好意思出門了。

近日，來自卡內(nèi)基梅隆大學(xué)（CMU）的研究人員發(fā)布了一個(gè)評(píng)估多模態(tài) Web 代理性能的基準(zhǔn)測(cè)試。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

論文地址：https://arxiv.org/ pdf / 2401.13649.pdf

代碼和任務(wù)集：https://github.com/ web-arena-x / visualwebarena

多模態(tài)和代理都是 AI 的發(fā)展趨勢(shì)，我們之前也報(bào)道過很多相關(guān)工作，比如幫助人類處理網(wǎng)上購物、會(huì)議等日常任務(wù)，比如幫助人類考試「作弊」，還有近來風(fēng)頭正盛的 AI 機(jī)器人，也是人類在物理世界的代理。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

而為了訓(xùn)練 AI 掌握這項(xiàng)能力，研究人員花費(fèi)了很多心血，比如聯(lián)合世界各地的著名實(shí)驗(yàn)室，共享機(jī)器人的訓(xùn)練和操作數(shù)據(jù)，比如開發(fā)了對(duì)應(yīng)于真實(shí)世界的模擬器用來訓(xùn)練 Agent。

而這次，CMU 的研究人員帶來了 LLM 的考試標(biāo)準(zhǔn)，VisualWebArena。VisualWebArena 由一組基于 Web 的多樣化和復(fù)雜的任務(wù)組成，這些任務(wù)評(píng)估自主多模式代理的各種功能：

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

如上圖所示，這個(gè)基準(zhǔn)測(cè)試中引入了 910 個(gè)新任務(wù)，這些任務(wù)來自于分類廣告、購物和 Reddit 網(wǎng)站上。

分類網(wǎng)站是一個(gè)新環(huán)境（具有真實(shí)世界的數(shù)據(jù)），而購物和 Reddit 網(wǎng)站與 WebArena 中使用的網(wǎng)站相同。

為了執(zhí)行這個(gè)基準(zhǔn)測(cè)試，代理（LLM）需要準(zhǔn)確處理圖像文本輸入，解釋自然語言指令，并在網(wǎng)站上執(zhí)行操作以實(shí)現(xiàn)用戶定義的目標(biāo)。比如在維基百科中搜索：

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

在 Reddit 上搜索、瀏覽和評(píng)論：

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

在交易網(wǎng)站上查閱和咨詢想要購買的商品，同時(shí)小手一抖，給個(gè)五星：

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

比如一條龍完成線上購物：

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

新的基準(zhǔn)測(cè)試引入的任務(wù)需要視覺理解，能夠評(píng)估基于 Web 的環(huán)境中自主代理的視覺和推理技能。

為了評(píng)估 VisualWebArena 的性能，研究人員在 WebArena 的功能評(píng)估范式中引入了新的基于視覺的評(píng)估指標(biāo)。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

上圖展示了幾個(gè)評(píng)估示例，通過運(yùn)行基于執(zhí)行的測(cè)試，可以全面評(píng)估開放式視覺基礎(chǔ)任務(wù)上代理軌跡的正確性。

受 Set-of-Mark 提示的啟發(fā)，研究人員使用 JavaScript 自動(dòng)注釋網(wǎng)頁上的每個(gè)可交互元素來執(zhí)行初始預(yù)處理步驟，包含邊界框和唯一 ID。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

如上圖所示，使用包含邊界框和 ID 的帶注釋屏幕截圖，以及 SoM 的文本表示形式，作為多模態(tài)模型的輸入。

下圖的結(jié)果表明，SoM 表示提高了可導(dǎo)航性，并在 VisualWebArena 上實(shí)現(xiàn)了更高的成功率。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

研究人員對(duì)幾個(gè)最先進(jìn)的 LLM 和基于 VLM 提示的代理進(jìn)行了基準(zhǔn)測(cè)試，發(fā)現(xiàn)所有現(xiàn)有的模型都明顯低于人類的表現(xiàn)。

盡管多模態(tài)模型通常會(huì)提高 VisualWebArena 的性能，但仍有很大的差距需要彌合。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

VisualWebArena

為了確?？芍貜?fù)性、真實(shí)性和確定性，VisualWebArena 框架中的所有網(wǎng)站都可作為獨(dú)立的開源 Web 應(yīng)用程序使用。

網(wǎng)站中可用的文本和視覺內(nèi)容是從現(xiàn)實(shí)世界獲取的，而代碼則基于現(xiàn)實(shí)世界應(yīng)用程序中常用的開源框架。

環(huán)境和智能體可以建模為部分可觀察的馬爾可夫決策過程（POMDP）：E =（S，A，Ω，T），其中 S 表示狀態(tài)集，A 表示行動(dòng)集，Ω 表示觀測(cè)值集。

轉(zhuǎn)移函數(shù)定義為 T：S × A → S，狀態(tài)之間的確定性轉(zhuǎn)換以動(dòng)作為條件。在每個(gè)時(shí)間步驟 t 中，環(huán)境都處于某種狀態(tài) s（比如特定頁面），并具有部分觀察 o∈ Ω。

代理以 o 為條件發(fā)出操作 a ∈ A，這將導(dǎo)致新狀態(tài) s ∈ S，以及結(jié)果頁面的新部分觀察 o ∈ Ω。

操作可以是在網(wǎng)頁上執(zhí)行的操作，也可以只是信息搜索任務(wù)的字符串輸出。

最后，定義獎(jiǎng)勵(lì)函數(shù) R ：S × A → {0，1} 來衡量任務(wù)執(zhí)行的成功。在 VisualWebArena 中，如果狀態(tài)轉(zhuǎn)換與任務(wù)目標(biāo)的期望一致（即目標(biāo)已實(shí)現(xiàn)），則獎(jiǎng)勵(lì)函數(shù)在最后一步返回 1，否則返回 0。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

比如在上圖的第一個(gè)任務(wù)中，獎(jiǎng)勵(lì)函數(shù)評(píng)估訂單是否正確下達(dá)到輸入圖像中提供的確切地址，并包含正確的項(xiàng)目。

觀察空間

觀察空間 Ω 以真實(shí)的 Web 瀏覽體驗(yàn)為模型。觀察結(jié)果包括網(wǎng)頁 URL、打開的選項(xiàng)卡（可能是不同網(wǎng)站的多個(gè)選項(xiàng)卡）以及重點(diǎn)選項(xiàng)卡的網(wǎng)頁內(nèi)容。

在大約 25% 的任務(wù)中，目標(biāo)也會(huì)涉及到圖像（比如上圖的第一個(gè)和第三個(gè)任務(wù)）

網(wǎng)頁內(nèi)容可以用幾種不同的方式表示：

原始網(wǎng)頁 HTML 作為文檔對(duì)象模型（DOM）樹，通常用于以前的自治 Web 代理工作。
網(wǎng)頁截圖，表示為 RGB 陣列，在之前的視覺代理工作中已經(jīng)證明了有效性。
輔助功能樹，提供了針對(duì)輔助技術(shù)優(yōu)化的網(wǎng)頁內(nèi)容的結(jié)構(gòu)化和簡(jiǎn)化表示，是 WebArena 用于其基線 LLM 代理的主要表示。
本文引入的一種新的視覺表示，靈感來自標(biāo)記集（SoM）提示。對(duì)于網(wǎng)頁上的每個(gè)可交互元素，用邊界框和 ID 標(biāo)記它，生成一個(gè)屏幕截圖，允許可視化代理通過其唯一 ID 引用頁面上的元素。

操作空間

下表總結(jié)了所有操作類型。操作的參數(shù)是當(dāng)前觀測(cè)值 o 中的唯一元素 ID。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

相比于預(yù)測(cè)（x，y）坐標(biāo)，這種表示的一個(gè)優(yōu)點(diǎn)是，它允許專注于高級(jí)推理而非低級(jí)控制，因?yàn)樵S多 SOTA 的 VLM 和 LLM 都沒有經(jīng)過明確訓(xùn)練，以如此精細(xì)的粒度引用元素。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

對(duì)于具有可訪問性樹表示的代理，參數(shù)是樹中的元素 ID。對(duì)于 SoM 表示，使用當(dāng)前頁面中分配的唯一 ID。

評(píng)估

為了評(píng)估 VisualWebArena 的性能，我們?cè)?WebArena 的功能評(píng)估范式中引入了新的基于視覺的評(píng)估指標(biāo)。這些使我們能夠全面評(píng)估開放式視覺基礎(chǔ)任務(wù)的執(zhí)行軌跡的正確性。每個(gè)任務(wù)的獎(jiǎng)勵(lì)都是使用下面描述的基元手工設(shè)計(jì)的函數(shù)。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

上表為分配獎(jiǎng)勵(lì) r（s，a）∈ R ：S × A → {0，1} 的各種評(píng)估指標(biāo)。

基于執(zhí)行的獎(jiǎng)勵(lì)原語使我們能夠?qū)Χ鄻踊?、現(xiàn)實(shí)和開放式的任務(wù)進(jìn)行基準(zhǔn)測(cè)試。

根據(jù)不同的任務(wù)場(chǎng)景，目標(biāo)的評(píng)測(cè)可以是「完全匹配」、「必須包括」、「必須不包括」、或者「模糊匹配」。

人類表現(xiàn)

對(duì)比實(shí)驗(yàn)測(cè)量了 7 名大學(xué)生（熟悉網(wǎng)站的商業(yè)版本）在 VisualWebArena 任務(wù)上的成功率。

不過因?yàn)槠渲械囊恍┤诉€協(xié)助創(chuàng)建了任務(wù)，為了避免數(shù)據(jù)泄露，這里確保他們不會(huì)被分配到自己創(chuàng)建的任務(wù)。

實(shí)驗(yàn)對(duì)每個(gè)模板一個(gè)任務(wù)進(jìn)行采樣，收集了具有代表性的 230 個(gè)任務(wù)。結(jié)果發(fā)現(xiàn)人類在這項(xiàng)任務(wù)上做得很好，總體成功率為 88.7%。

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

而在剩下的 11.3% 的任務(wù)中，人類犯的錯(cuò)誤通常是輕微的，例如沒有正確閱讀任務(wù)或錯(cuò)過了目標(biāo)的一部分。

當(dāng)然也有另一種失敗模式，比如受試者在搜索 5-10 分鐘后找不到合適的帖子并放棄，認(rèn)為任務(wù)無法完成。

參考資料：

https://arxiv.org/abs/2401.13649

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜

VisualWebArena

觀察空間

操作空間

評(píng)估

人類表現(xiàn)

相關(guān)文章

AI 取代人類從網(wǎng)購 / 刷短視頻開始：CMU 發(fā)布多模態(tài) Web Agent 基準(zhǔn)，讓大模型沖浪比你還溜