設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

頂級 AI 智能體不會社交、創(chuàng)業(yè)遠不如人類:卡內(nèi)基梅隆大學等稱其最多完成 24% 任務(wù)

新智元 2025/1/26 16:38:09 責編:清源

智能體究竟能否應(yīng)對現(xiàn)實世界的復(fù)雜性?The Agent Company 近日提出了一項評估基準,讓多個智能體嘗試自主運營一個軟件公司。結(jié)果表明,即使是當前最先進的智能體,也無法自主完成大多數(shù)任務(wù)。

如今,基于大模型的智能體,已經(jīng)能完成許多在幾年前還無法想象的任務(wù),進步的速度是如此之快,以至于有些人甚至聲稱,在接下來的幾年內(nèi),大多數(shù)人類勞動可能都可以實現(xiàn)自動化。

然而近日 CMU、杜克大學等機構(gòu)發(fā)表的一項研究卻給這一期待潑了一盆涼水。

智能體運營公司還不可行

論文鏈接:https://arxiv.org/abs/2412.14161

該研究開發(fā)了一個全部由大模型驅(qū)動的智能體組成的虛擬軟件開發(fā)公司 The Agent Company,與人類員工類似,智能體需要執(zhí)行軟件開發(fā)、項目管理、財務(wù)分析等典型的商業(yè)環(huán)境中的任務(wù)。

智能體與環(huán)境互動,以及智能體間的協(xié)作以完成真實世界任務(wù)

智能體所用的環(huán)境完全基于開源軟件及主流的大模型接口,并可自行托管以實現(xiàn)可復(fù)現(xiàn)性。為了完成這些任務(wù),智能體需要瀏覽網(wǎng)頁、編寫代碼,并與其他智能體同事互動。

智能體之間的交互模式也和真實世界的軟件公司十分類似,比如使用 RocketChat 向公司的其它成員發(fā)送消息,并獲取原始任務(wù)描述中可能未提及的信息。各智能體在交流中還被賦予了諸如姓名、職位、職責和項目隸屬關(guān)系等身份信息。

這項研究評估了當前幾種主流的大模型,包括 Claude Sonnet 3.5、GPT-4o、Google 的 Gemini、Amazon 的 Nova,以及知名開源模型,包括 Meta 的 Llama 和 Qwen2.5。

除了創(chuàng)建 175 個多樣化、真實、專業(yè),且與真實公司運營模式一致的任務(wù),這項研究還創(chuàng)建了不同任務(wù)對應(yīng)的評估器,在每個任務(wù)中的多個階段設(shè)置檢查點。智能體每完成一步任務(wù),都會獲得相應(yīng)的積分(類似于現(xiàn)實員工的 KPI);而當智能體只是部分正確地給出回答時,也會給予其部分過程分。

結(jié)果顯示,表現(xiàn)最好的是基于 Claude Sonnet 3.5 的智能體,然而它只能應(yīng)對真實世界中 24% 的任務(wù),在過程分上取得 34.4% 的得分。

排名第二的模型的任務(wù)完成比例更是只有 11.4%,這與人們對大模型取代人類員工的預(yù)期還相距甚遠。

這個成績單中值得關(guān)注的是,開源模型 Llama3.1 和閉源的 GPT-4o 排名相近,這表明了開源模型在性能上已經(jīng)十分逼近商用的閉源模型。

運營公司,AI 比人類差在哪里

這項研究中有趣的一點是,可以讓我們看到智能體在無法完成任務(wù)時犯下的錯誤,而這些錯誤在人類身上是幾乎不會發(fā)生的。如果能得到解決,將有助于提升智能體在真實世界中的應(yīng)用落地。

問題 1:缺乏常識

某些任務(wù)失敗是因為,智能體缺乏進行隱含假設(shè)推理所需的常識和領(lǐng)域背景知識。

例如,一個任務(wù)要求智能體「將響應(yīng)寫入 / workspace / answer.docx」,但沒有明確指出這是一個 Word 文件。人類可以從文件擴展名推斷出這一要求,而智能體卻將其視為純文本文件,直接內(nèi)容以文本形式寫入,導致任務(wù)失敗。

問題 2:缺乏社交技巧

一項任務(wù)需要智能體向其它智能體尋求幫助,智能體首先成功提出了正確的問題:「你能告訴我,應(yīng)該接下來向團隊中的誰請教這個問題嗎?」然后模擬同事 Alex 回答:「你應(yīng)該向 Bob 請教。他在前端團隊,是一個很好的聯(lián)系人!」

之后若是人類,99.9% 的人都會選擇去咨詢 Bob 相關(guān)問題,但智能體卻認為任務(wù)已經(jīng)結(jié)束,不去向 Bob 請教。

問題 3:瀏覽網(wǎng)頁容易出錯

很多時候,任務(wù)中的最大障礙在于需要瀏覽網(wǎng)頁的部分。這方面的障礙是預(yù)料之中的,因為對于智能體來說,由于當前網(wǎng)頁用戶界面的復(fù)雜性和網(wǎng)頁上的眾多干擾,瀏覽網(wǎng)頁仍然很困難。

例如,許多網(wǎng)頁都會不時彈出可關(guān)閉的廣告窗口,要求用戶下載手機應(yīng)用程序以獲得更好的體驗。人類可以簡單地點擊「×」來關(guān)閉彈窗,而智能體則陷入了困境。

同樣,當智能體嘗試從網(wǎng)絡(luò)中下載文件時,需要點擊多個彈出窗口才能進行實際下載,但由于用戶界面復(fù)雜,每個步驟都容易出錯。

問題 4:自欺欺人

對于某些任務(wù),當智能體不清楚下一步應(yīng)該做什么時,它有時會試圖聰明一點,創(chuàng)建一些省略任務(wù)困難部分的「捷徑」。

例如,如果智能體在 RocketChat 上找不到合適的人提問,它就會決定給另一個用戶改名為目標用戶來當做解決方案。

未來的智能體還有希望嗎

該研究的另一價值在于提供了一套框架,用來評估智能體在真實環(huán)境中的表現(xiàn)。

隨著向大模型灌輸網(wǎng)頁相關(guān)的信息,并教會大模型如何瀏覽網(wǎng)頁獲取信息,下載文件并不是難事,其他的辦公、工作交流等相關(guān)常識也是如此。相信未來大模型將有潛力取代人類的人力、財務(wù)、程序員等職業(yè),至少是將這些崗位的大部分任務(wù)進行自動化處理。

與此相應(yīng)的是,未來對大模型的評價也會有更多的維度。不止是完成該文列出的常規(guī)任務(wù),還應(yīng)該對創(chuàng)造能力進行考核。

此外,考核還應(yīng)該包含那些定義模糊的任務(wù),以及更高層次、更長遠的任務(wù),如構(gòu)思新產(chǎn)品并將其付諸實施。智能體只有能夠完成這些任務(wù),才能算是真正地取代人類員工運營公司。

參考資料:

  • https://arxiv.org/pdf/2412.14161

本文來自微信公眾號:新智元(ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,智能體

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知